# **Tarea 3 - Word Embeddings 📚**

**Integrantes:**

**Fecha límite de entrega 📆:** 3 de mayo.

**Tiempo estimado de dedicación:**


**Instrucciones:**
- El ejercicio consiste en:
    - Responder preguntas relativas a los contenidos vistos en los vídeos y slides de las clases. 
    - Entrenar Word2Vec y Word Context Matrix sobre un pequeño corpus.
    - Evaluar los embeddings obtenidos en una tarea de clasificación.
- La tarea se realiza en grupos de **máximo** 2 personas. Puede ser invidivual pero no es recomendable.
- La entrega es a través de u-cursos a más tardar el día estipulado arriba. No se aceptan atrasos.
- El formato de entrega es este mismo Jupyter Notebook.
- Al momento de la revisión tu código será ejecutado. Por favor verifica que tu entrega no tenga errores de compilación. 
- En el horario de auxiliar pueden realizar consultas acerca de la tarea a través del canal de Discord del curso. 


**Referencias**

Vídeos: 

- [Linear Models](https://youtu.be/zhBxDsNLZEA)
- [Neural Networks](https://youtu.be/oHZHA8h2xN0)
- [Word Embeddings](https://youtu.be/wtwUsJMC9CA)

## **Preguntas teóricas 📕 (2 puntos).** ##
Para estas preguntas no es necesario implementar código, pero pueden utilizar pseudo código.

### **Parte 1: Modelos Lineales (1 ptos)**

Suponga que tiene un dataset de 10.000 documentos etiquetados por 4 categorías: política, deporte, negocios y otros. 

**Pregunta 1**: Diseñe un modelo lineal capaz de clasificar un documento según estas categorías donde el output sea un vector con una distribución de probabilidad con la pertenencia a cada clase. 

Especifique: representación de los documentos de entrada, parámetros del modelo, transformaciones necesarias para obtener la probabilidad de cada etiqueta y función de pérdida escogida. **(0.5 puntos)**

**Respuesta**:

En primer lugar, la representación de los documentos de entrada será mediante vectores *word count*, es decir, dado el vocabulario del modelo, la representación de un documento será un vector del largo del vocabulario donde cada columna representará una palabra del vocabulario y el valor en dicha columna será la cantidad de veces que aparece la palabra asociada a la columna en el documento del input.

Los parámetros del modelo serán la matriz $W$ y el vector $\vec{b}$. La matriz $W$ será una matriz $W \in \mathcal{R}^{N\times4}$ donde $N$ es el tamaño del vocabulario y donde cada vector de una fila representará la *importancia* o *peso* de la palabra asociada a dicha fila para las clases asociadas a cada columna. El vector $\vec{b}$ será una vector $\vec{b} \in \mathbb{R}^{4}$. De esa forma, se podrá modelar el problema mediante una función linear de la siguiente forma.
\begin{equation}
f(\vec{x}) = \vec{x} \cdot W + \vec{b}
\end{equation}

Ahora, para que la función $f(x) = \vec{\hat{y}}$ represente una distribución de probabilidad que indique la probabilidad de pertenencia del documento asociado al vector $x$ a cada una de las 4 clases, se necesita aplicar *softmax* tal que:
\begin{equation}
softmax(\vec{x})_{[i]} = \frac{e^{\vec{x}_{[i]}}}{\sum_{j}^{} e^{\vec{x}_{[j]}}}
\end{equation}

Así, vector $\vec{\hat{y}}$ queda definido de la siguiente forma:
\begin{equation}
\vec{\hat{y}} = softmax(\vec{x} \cdot W + \vec{b})
\end{equation}

Con *softmax*, el vector $\vec{\hat{y}}$ representa una distribución de probabilidad que indica la probabilidad de pertenencia del documento asociado al vector $x$ a cada una de las 4 clases, es decir, cada columna del vector $\vec{\hat{y}}$ representa la probabilidad de que el documento pertenezca a la clase asociada a dicha columna y, además, al ser un vector que representa una distribución de probabilidad, la suma de todas las columnas del vector deben dar 1.

Finalmente, la función de pérdida a utilizar será la función *cross-entropy loss function*:
\begin{equation}
L_{cross-entropy}(\vec{\hat{y}}, \vec{y}) = - \sum_{i}^{}\vec{y}_{[i]}\cdot \log(\vec{\hat{y}}_{[i]})
\end{equation}


**Pregunta 2**: Explique cómo funciona el proceso de entrenamiento en este tipo de modelos y su evaluación. **(0.5 puntos)**

**Respuesta**: 

Siguiendo con el ejemplo de la pregunta anterior, el proceso de entrenamiento consiste en encontrar los parámetros $\hat{W}$ y $\hat{B}$ tales que la suma de las funciones de pérdida para los documentos del dataset y sus respectivas predicciones sea mínima.

Es decir, definiendo el conjunto de parámetros como $\Theta$ y definiendo la función $\mathcal{L}(\Theta)$ de la forma:
\begin{equation}
\mathcal{L}(\Theta) = \frac{1}{n} \sum_{i=1}^{n} L(f(\vec{x};\Theta), y_{i})
\end{equation}
donde $L$ es la función de pérdida escogida y $n$ es la cantidad de inputs en el dataset de entrenamiento, el proceso de entrenamiento del modelo consiste en encontrar $\hat{\Theta}$ tal que la función
\begin{equation}
\hat{\Theta} = argmin_{\Theta} \mathcal{L}(\Theta) =  argmin_{\Theta} \frac{1}{n} \sum_{i=1}^{n} L(f(\vec{x};\Theta), y_{i})
\end{equation}

Luego, para evaluar el modelo, se puede particionar el dataset original en tres dataset distintos: un dataset de entrenamiento, un dataset de validación y un dataset de testing. 
- El dataset de entrenamiento se utiliza para entrenar el modelo de la forma explicada anteriormente.
- El dataset de validación se utilza para *tunear* y *evaluar* el modelo generado comparando las predicciones realizadas por el modelo entrenado y las clases originales de los datos, es decir, dado el modelo *creado*, se *pasan* los datos por el modelo, se obtienen las predicciones y se comparan las predicciones con las *clases* originales de los datos.
- El dataset de testeo se utiliza para evaluar la performance del modelo *final* (también comparando las predicciones realizadas por el modelo entrenado y las clases originales de los datos)


### **Parte 2: Redes Neuronales (1 ptos)** 

Supongamos que tenemos la siguiente red neuronal.

![image.png](https://drive.google.com/uc?export=view&id=1nV1G0dOeVGPn40qGcGF9l_pVEFNtLU-w)

**Pregunta 1**: En clases les explicaron como se puede representar una red neuronal de una y dos capas de manera matemática. Dada la red neuronal anterior, defina la salida $\vec{\hat{y}}$ en función del vector $\vec{x}$, pesos $W^i$, bias $b^i$ y funciones $g,f,h$. 

Adicionalmente liste y explicite las dimensiones de cada matriz y vector involucrado en la red neuronal. **(0.5 Puntos)**

**Respuesta**: 

Formula:
$\vec{\hat{y}} = NN_{MLP3}(\vec{x}) = h(g(f(\vec{x}W^{1} + \vec{b^1})W^2 + \vec{b^2})W^3 + \vec{b^3})W^4 + \vec{b^4}$

Dimensiones:
- $\vec{x} \in \mathcal{R}^{3}$
- $f: \mathcal{R}^{2} \rightarrow \mathcal{R}^{2}$
- $g: \mathcal{R}^{3} \rightarrow \mathcal{R}^{3}$
- $h: \mathcal{R}^{1} \rightarrow \mathcal{R}^{1}$
- $W^1 \in \mathcal{R}^{3\times2} \text{, } b^1 \in \mathcal{R}^{2} $
- $W^2 \in \mathcal{R}^{2\times3} \text{, } b^2 \in \mathcal{R}^{3} $
- $W^3 \in \mathcal{R}^{3\times1} \text{, } b^3 \in \mathcal{R}^{1} $
- $W^4 \in \mathcal{R}^{1\times4} \text{, } b^4 \in \mathcal{R}^{4} $

**Pregunta 2**: Explique qué es backpropagation. ¿Cuales serían los parámetros a evaluar en la red neuronal anterior durante backpropagation? **(0.25 puntos)**

**Respuesta**:

Backpropagation es un método para entrenar redes neuronales que permite calcular de manera eficiente el gradiente de una función de pérdida respecto a todos sus parámetros. Backpropagation es eficaz ya que calcula las derivadas parciales respecto a cada *peso* mediante la regla de la cadena, calculando los gradientes de manera secuencial para cada capa, partiendo desde las capas exteriores hacia las capas inferiores para evitar cálculos redundantes de términos intermedios en la regla de la cadena.

En la red neuronal anterior los parámetros a evaluar durante backpropagation son $W^1$, $\vec{b^1}$, $W^2$, $\vec{b^2}$, $W^3$, $\vec{b^3}$, $W^4$ y $\vec{b^4}$ (se pueden *agregar* los 

**Pregunta 3**: Explique los pasos de backpropagation. En la red neuronal anterior: Cuales son las derivadas que debemos calcular para poder obtener $\vec{\delta^l_{[j]}}$ en todas las capas? **(0.25 puntos)**

**Respuesta**:

- Se calcularon los outputs de la red, es decir, desde la *input layer* se pasan los inputs a través de las *hidden layer* hasta la *ouput layer*.
- Luego, se quiere calcular las siguientes derivadas parciales:
\begin{equation}
\frac{\partial L}{\partial W^{l}_{[i,j]}} = \vec{\delta^{l}_{[j]}}\times\vec{z^{(l-1)}_{[i]}}
\end{equation}

- Nótese que los valores $\vec{z^{(l-1)}_{[i]}}$ fueron calculados inicialmente, por lo que es necesario calcular $\vec{\delta^{l}_{[j]}}$
- $\vec{\delta^{l}_{[j]}}$ viene dado por:
\begin{equation}
\vec{\delta^{l}_{[j]}} = g^{l}(h^{l}_{[j]}) \times \sum_{k}{}\left(\vec{\delta^{l}_{[k]}} \times W^{l+1}_{[j,k]} \right)
\end{equation}
- Como $\delta^{l}_{[j]}$ depende los $\delta^{l+1}_{[k]}$ se aplica la lógica de backpropagation: las derivadas parciales de la capa más superior son directas de calcular. Luego, con dichas derivadas se calculan las derivadas de las capas inferiores (que depende de una derivada de una capa superior que ya está calculada). Así, se calculan las derivadas de manera eficiente.

En el ejemplo anterior, se tienen que calcular las derivadas parciales de la función de pérdida con respecto a los últimos nodos de la red y, con dichas derivadas, calcular las derivadas de los nodos internos. Así, solo se realizaron cálculos directos de cuatro derivadas (asociadas a los nodos de la capa superior) y luego, las derivadas de las capas inferiores son calculadas de forma *indirecta* utilizando las derivadas ya calculadas.





## **Preguntas prácticas 💻 (4 puntos).** ##

### **Parte 3: Word Embeddings**

En la auxiliar 2 se nombraron dos formas de crear word vectors:

-  Distributional Vectors.
-  Distributed Vectors.

El objetivo de esta parte es comparar las dos embeddings obtenidos de estas dos estrategias en una tarea de clasificación.

In [1]:
import re  
import pandas as pd 
from time import time  
from collections import defaultdict 
import string 
import multiprocessing
import os
import gensim
import sklearn
from sklearn import linear_model
from collections import Counter
import numpy as np
import scipy
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score, confusion_matrix, cohen_kappa_score, classification_report

# word2vec
from gensim.models import Word2Vec, KeyedVectors, FastText
from gensim.models.phrases import Phrases, Phraser
from sklearn.model_selection import train_test_split
import logging

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
logger = logging.getLogger(__name__)

#### **Parte A (1 punto)** 

En esta parte debe crear una matriz palabra contexto, para esto, complete el siguiente template (para esta parte puede utilizar las librerías ```numpy``` y/o ```scipy```). Hint: revise como utilizar matrices sparse de ```scipy```

```python
class WordContextMatrix:

  def __init__(self, vocab_size, window_size, dataset, tokenizer):
    """
    Utilice el constructor para definir los parametros.
    """
    

    # se sugiere agregar un una estructura de datos para guardar las
    # palabras del vocab y para guardar el conteo de coocurrencia
    ...
    
  def add_word_to_vocab(self, word):
    """
    Utilice este método para agregar token
    a sus vocabulario
    """
    

    # Le puede ser útil considerar un token unk al vocab
    # para palabras fuera del vocab
    ...
  
  def build_matrix(self):
    """
    Utilice este método para crear la palabra contexto
    """
    ...

  def matrix2dict(self):
    """
    Utilice este método para convertir la matriz a un diccionario de embeddings, donde las llaves deben ser los token del vocabulario y los embeddings los valores obtenidos de la matriz. 
    """

    # se recomienda transformar la matrix a un diccionario de embedding.
    # por ejemplo {palabra1:vec1, palabra2:vec2, ...}
    ...

```

puede modificar los parámetros o métodos si lo considera necesario. Para probar la matrix puede utilizar el siguiente corpus.

```python
corpus = [
  "I like deep learning.",
  "I like NLP.",
  "I enjoy flying."
]
```

Obteniendo una matriz parecia a esta:

***Resultado esperado***: 

| counts   | I  | like | enjoy | deep | learning | NLP | flying | . |   
|----------|---:|-----:|------:|-----:|---------:|----:|-------:|--:|
| I        | 0  |  2   |  1    |    0 |  0       |   0 | 0      | 0|            
| like     |  2 |    0 |  0    |    1 |  0       |   1 | 0      | 0 | 
| enjoy    |  1 |    0 |  0    |    0 |  0       |   0 | 1      | 0 |
| deep     |  0 |    1 |  0    |    0 |  1       |   0 | 0      | 0 |  
| learning |  0 |    0 |  0    |    1 |  0       |   0 | 0      | 1 |          
| NLP      |  0 |    1 |  0    |    0 |  0       |   0 | 0      | 1 |
| flying   |  0 |    0 |  1    |    0 |  0       |   0 | 0      | 1 | 
| .        |  0 |    0 |  0    |    0 |  1       |   1 | 1      | 0 | 

``

**Respuesta:**

In [62]:
class WordContextMatrix:
    def __init__(self, vocab_size, window_size, dataset, tokenizer):
        """
        Utilice el constructor para definir los parametros.
        """
        self.vocab_size = vocab_size
        self.n = 0
        self.window_size = window_size
        self.vocab = {}
        self.dataset = dataset
        self.tokenizer = tokenizer
        self.mat = np.zeros((self.vocab_size, self.vocab_size))

        self.create_vocab()
        self.build_matrix()

    def create_vocab(self):
        cleaned_content = list(map(self.tokenizer, self.dataset))
        phrases = Phrases(cleaned_content, min_count=100, progress_per=5000) 
        bigram = Phraser(phrases)
        self.dataset = bigram[cleaned_content]

        all_words = []
        for words in self.dataset:
            for word in words:
                all_words.append(word)

        count = Counter(all_words)
        count = count.most_common(self.vocab_size)

        for (word, _) in count:
            self.add_word_to_vocab(word)

    def add_word_to_vocab(self, word):
        """
        Utilice este método para agregar token
        a sus vocabulario
        """
        # Le puede ser útil considerar un token unk al vocab
        # para palabras fuera del vocab

        if self.n >= self.vocab_size:
            return
        else:
            self.vocab[word] = self.n
            self.n += 1

    def build_matrix(self):
        """
        Utilice este método para crear la palabra contexto
        """
        for words in self.dataset:
            for (i, word) in enumerate(words):
                if word in self.vocab:
                    before = i - self.window_size
                    if before >= 0:
                        for j in range(before, i):
                            if words[j] in self.vocab:
                                word_1_indx = self.vocab[word]
                                word_2_indx = self.vocab[words[j]]
                                self.mat[word_1_indx][word_2_indx] += 1
                                self.mat[word_2_indx][word_1_indx] += 1

    def matrix2dict(self):
        """
        Utilice este método para convertir la matriz a un diccionario de
        embeddings, donde las llaves deben ser los token del vocabulario y los
        embeddings los valores obtenidos de la matriz.
        """
        dic_matrix = {}
        for key in self.vocab.keys():
            dic_matrix[key] = self.mat[self.vocab[key]]
        return dic_matrix

        # se recomienda transformar la matrix a un diccionario de embedding.
        # por ejemplo {palabra1:vec1, palabra2:vec2, ...}

    def print_matrix(self):
        hola = "        "
        print(hola, end=" ")
        for key in self.vocab.keys():
            print(key, end=" ")
        print("")

        for key in self.vocab.keys():
            print(key + " "*(len(hola)-len(key)), end=" ")
            i = self.vocab[key]

            for key in self.vocab.keys():
                j = self.vocab[key]
                print(self.mat[i][j], end=" ")
            print("")


#### **Parte B (1.5 puntos)**

En esta parte es debe entrenar Word2Vec de gensim y construir la matriz palabra contexto utilizando el dataset de diálogos de los Simpson. 

Utilizando el dataset adjunto con la tarea:

In [83]:
data_file = "dialogue-lines-of-the-simpsons.zip"
df = pd.read_csv(data_file)
df = df.dropna().reset_index(drop=True) # Quitar filas vacias

**Pregunta 1**: Ayudándose de los pasos vistos en la auxiliar, entrene los modelos Word2Vec. **(0.75 punto)** (Hint, le puede servir explorar un poco los datos)

**Respuesta**:

In [86]:
content = df["spoken_words"]

from collections import Counter

# limpiar puntuaciones y separar por tokens.
punctuation = string.punctuation + "«»“”‘’…—"
stopwords = pd.read_csv(
    'https://raw.githubusercontent.com/Alir3z4/stop-words/master/english.txt'
).values
stopwords = Counter(stopwords.flatten().tolist())
def simple_tokenizer(doc, lower=False):
    if lower:
        tokenized_doc = doc.translate(str.maketrans(
            '', '', punctuation)).lower().split()

    tokenized_doc = doc.translate(str.maketrans('', '', punctuation)).split()

    tokenized_doc = [
        token for token in tokenized_doc if token.lower() not in stopwords
    ]
    return tokenized_doc


cleaned_content = [simple_tokenizer(doc) for doc in content.values]
phrases = Phrases(cleaned_content, min_count=100, progress_per=5000) 
bigram = Phraser(phrases)
sentences = bigram[cleaned_content]

2022-05-30 02:51:32,579 : INFO : collecting all words and their counts
2022-05-30 02:51:32,580 : INFO : PROGRESS: at sentence #0, processed 0 words and 0 word types
2022-05-30 02:51:32,600 : INFO : PROGRESS: at sentence #5000, processed 16897 words and 17696 word types
2022-05-30 02:51:32,626 : INFO : PROGRESS: at sentence #10000, processed 33320 words and 32774 word types
2022-05-30 02:51:32,655 : INFO : PROGRESS: at sentence #15000, processed 49225 words and 46074 word types
2022-05-30 02:51:32,684 : INFO : PROGRESS: at sentence #20000, processed 67371 words and 61074 word types
2022-05-30 02:51:32,711 : INFO : PROGRESS: at sentence #25000, processed 85568 words and 75938 word types
2022-05-30 02:51:32,746 : INFO : PROGRESS: at sentence #30000, processed 104569 words and 91367 word types
2022-05-30 02:51:32,776 : INFO : PROGRESS: at sentence #35000, processed 122041 words and 104739 word types
2022-05-30 02:51:32,798 : INFO : PROGRESS: at sentence #40000, processed 138266 words and 1

In [88]:
simpsons_w2v = Word2Vec(min_count=10,
                        window=2,
                        vector_size=300,
                        sample=6e-5,
                        alpha=0.03,
                        min_alpha=0.0007,
                        negative=20,
                        workers=multiprocessing.cpu_count())


2022-05-30 02:51:37,105 : INFO : Word2Vec lifecycle event {'params': 'Word2Vec(vocab=0, vector_size=300, alpha=0.03)', 'datetime': '2022-05-30T02:51:37.105836', 'gensim': '4.1.2', 'python': '3.8.10 (default, Mar 15 2022, 12:22:08) \n[GCC 9.4.0]', 'platform': 'Linux-5.4.0-113-generic-x86_64-with-glibc2.29', 'event': 'created'}


In [89]:
simpsons_w2v.build_vocab(sentences, progress_per=10000)

2022-05-30 02:51:37,650 : INFO : collecting all words and their counts
2022-05-30 02:51:37,652 : INFO : PROGRESS: at sentence #0, processed 0 words, keeping 0 word types
2022-05-30 02:51:37,709 : INFO : PROGRESS: at sentence #10000, processed 33138 words, keeping 10665 word types
2022-05-30 02:51:37,755 : INFO : PROGRESS: at sentence #20000, processed 66935 words, keeping 17139 word types
2022-05-30 02:51:37,819 : INFO : PROGRESS: at sentence #30000, processed 103943 words, keeping 23072 word types
2022-05-30 02:51:37,870 : INFO : PROGRESS: at sentence #40000, processed 137471 words, keeping 27257 word types
2022-05-30 02:51:37,922 : INFO : PROGRESS: at sentence #50000, processed 169305 words, keeping 31180 word types
2022-05-30 02:51:37,974 : INFO : PROGRESS: at sentence #60000, processed 199034 words, keeping 34584 word types
2022-05-30 02:51:38,029 : INFO : PROGRESS: at sentence #70000, processed 232290 words, keeping 38239 word types
2022-05-30 02:51:38,087 : INFO : PROGRESS: at se

In [90]:
t = time()
simpsons_w2v.train(sentences, total_examples=simpsons_w2v.corpus_count, epochs=15, report_delay=10)
print('Time to train the model: {} mins'.format(round((time() - t) / 60, 2)))

2022-05-30 02:51:46,111 : INFO : Word2Vec lifecycle event {'msg': 'training model with 4 workers on 6503 vocabulary and 300 features, using sg=0 hs=0 sample=6e-05 negative=20 window=2 shrink_windows=True', 'datetime': '2022-05-30T02:51:46.111757', 'gensim': '4.1.2', 'python': '3.8.10 (default, Mar 15 2022, 12:22:08) \n[GCC 9.4.0]', 'platform': 'Linux-5.4.0-113-generic-x86_64-with-glibc2.29', 'event': 'train'}
2022-05-30 02:51:47,139 : INFO : EPOCH 1 - PROGRESS: at 59.03% examples, 117390 words/s, in_qsize 0, out_qsize 0
2022-05-30 02:51:47,613 : INFO : worker thread finished; awaiting finish of 3 more threads
2022-05-30 02:51:47,614 : INFO : worker thread finished; awaiting finish of 2 more threads
2022-05-30 02:51:47,626 : INFO : worker thread finished; awaiting finish of 1 more threads
2022-05-30 02:51:47,660 : INFO : worker thread finished; awaiting finish of 0 more threads
2022-05-30 02:51:47,660 : INFO : EPOCH - 1 : training on 442276 raw words (203250 effective words) took 1.5s, 

2022-05-30 02:52:05,450 : INFO : EPOCH - 13 : training on 442276 raw words (203068 effective words) took 1.2s, 164445 effective words/s
2022-05-30 02:52:06,493 : INFO : EPOCH 14 - PROGRESS: at 61.19% examples, 120666 words/s, in_qsize 0, out_qsize 0
2022-05-30 02:52:06,900 : INFO : worker thread finished; awaiting finish of 3 more threads
2022-05-30 02:52:06,906 : INFO : worker thread finished; awaiting finish of 2 more threads
2022-05-30 02:52:06,931 : INFO : worker thread finished; awaiting finish of 1 more threads
2022-05-30 02:52:06,941 : INFO : worker thread finished; awaiting finish of 0 more threads
2022-05-30 02:52:06,941 : INFO : EPOCH - 14 : training on 442276 raw words (202848 effective words) took 1.5s, 137705 effective words/s
2022-05-30 02:52:07,959 : INFO : EPOCH 15 - PROGRESS: at 54.75% examples, 109123 words/s, in_qsize 3, out_qsize 0
2022-05-30 02:52:08,379 : INFO : worker thread finished; awaiting finish of 3 more threads
2022-05-30 02:52:08,392 : INFO : worker threa

Time to train the model: 0.37 mins


In [91]:
simpsons_w2v.init_sims(replace=True)

  simpsons_w2v.init_sims(replace=True)


**Pregunta 2**: Cree una matriz palabra contexto usando el mismo dataset. Configure el largo del vocabulario a 1000 o 2000 tokens, puede agregar valores mayores pero tenga en cuenta que la construcción de la matriz puede tomar varios minutos. Puede que esto tarde un poco. **(0.75 punto)** 

**Respuesta:**

In [190]:
simpsons_wcm = WordContextMatrix(6000, 1, content, simple_tokenizer)

2022-05-30 03:35:17,440 : INFO : collecting all words and their counts
2022-05-30 03:35:17,441 : INFO : PROGRESS: at sentence #0, processed 0 words and 0 word types
2022-05-30 03:35:17,468 : INFO : PROGRESS: at sentence #5000, processed 16897 words and 17696 word types
2022-05-30 03:35:17,491 : INFO : PROGRESS: at sentence #10000, processed 33320 words and 32774 word types
2022-05-30 03:35:17,518 : INFO : PROGRESS: at sentence #15000, processed 49225 words and 46074 word types
2022-05-30 03:35:17,539 : INFO : PROGRESS: at sentence #20000, processed 67371 words and 61074 word types
2022-05-30 03:35:17,568 : INFO : PROGRESS: at sentence #25000, processed 85568 words and 75938 word types
2022-05-30 03:35:17,596 : INFO : PROGRESS: at sentence #30000, processed 104569 words and 91367 word types
2022-05-30 03:35:17,620 : INFO : PROGRESS: at sentence #35000, processed 122041 words and 104739 word types
2022-05-30 03:35:17,643 : INFO : PROGRESS: at sentence #40000, processed 138266 words and 1

#### **Parte C (1.5 puntos): Aplicar embeddings para clasificar**

Ahora utilizaremos los embeddings que acabamos de calcular para clasificar palabras basadas en su polaridad (positivas o negativas). 

Para esto ocuparemos el lexicón AFINN incluido en la tarea, que incluye una lista de palabras y un 1 si su connotación es positiva y un -1 si es negativa.

In [191]:
AFINN = 'AFINN_full.csv'
df_afinn = pd.read_csv(AFINN, sep='\t', header=None)

Hint: Para w2v y la wcm son esperables KeyErrors debido a que no todas las palabras del corpus de los simpsons tendrán una representación en AFINN. Para el caso de la matriz palabra contexto se recomienda convertir su matrix a un diccionario. Pueden utilizar esta función auxiliar para filtrar las filas en el dataframe que no tienen embeddings (como w2v no tiene token UNK se deben ignorar).

In [192]:
def try_apply(model,word):
    try:
        aux = model[word]
        return True
    except KeyError:
        #logger.error('Word {} not in dictionary'.format(word))
        return False

**Pregunta 1**: Transforme las palabras del corpus de AFINN a la representación en embedding que acabamos de calcular (con ambos modelos). 

Su dataframe final debe ser del estilo [embedding, sentimiento], donde los embeddings corresponden a $X$ y el sentimiento asociado con el embedding a $y$ (positivo/negativo, 1/-1). 

Para ambos modelos, separar train y test de acuerdo a la siguiente función. **(0.5 puntos)**

**Respuesta**:

In [193]:
wcm_dic = simpsons_wcm.matrix2dict()
wmc_df = []

for _, row in df_afinn.iterrows():
    if try_apply(wcm_dic, row[0]):
        wmc_df.append([wcm_dic[row[0]], row[1]])

wmc_df = pd.DataFrame (wmc_df, columns = ['embedding', 'sentimiento'])
print(len(wmc_df.sentimiento))

807


In [194]:

X_train, X_test, y_train, y_test = train_test_split(wmc_df.embedding, wmc_df.sentimiento, random_state=0, test_size=0.1, stratify=wmc_df.sentimiento)


**Pregunta 2**: Entrenar una regresión logística (vista en auxiliar) y reportar accuracy, precision, recall, f1 y confusion_matrix para ambos modelos. Por qué se obtienen estos resultados? Cómo los mejorarías? Como podrías mejorar los resultados de la matriz palabra contexto? es equivalente al modelo word2vec? **(1 punto)**

**Respuesta**:

In [195]:
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.base import BaseEstimator, TransformerMixin

In [196]:
class BaseFeature(BaseEstimator, TransformerMixin):
    def fit(self, X, y=None):
        return self

In [197]:
class WCMTransformer(BaseFeature):
    def transform(self, X, y=None):
        lst = []
        for x in X:
            lst.append(x)
        return np.array(lst)


In [198]:
clf = LogisticRegression(max_iter=1000000)
wmc_transformer = WCMTransformer()
pipeline = Pipeline([('doc2vec', wmc_transformer), ('clf', clf)])


In [199]:
pipeline.fit(X_train, y_train)

Pipeline(steps=[('doc2vec', WCMTransformer()),
                ('clf', LogisticRegression(max_iter=1000000))])

In [200]:
y_pred = pipeline.predict(X_test)

In [201]:
conf_matrix = confusion_matrix(y_test, y_pred)
print(conf_matrix)

[[41  6]
 [17 17]]


In [202]:
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

          -1       0.71      0.87      0.78        47
           1       0.74      0.50      0.60        34

    accuracy                           0.72        81
   macro avg       0.72      0.69      0.69        81
weighted avg       0.72      0.72      0.70        81



# Bonus: +0.25 puntos en cualquier pregunta

**Pregunta 1**: Replicar la parte anterior utilizando embeddings pre-entrenados en un dataset más grande y obtener mejores resultados. Les puede servir [ésta](https://radimrehurek.com/gensim/downloader.html#module-gensim.downloader) documentacion de gensim **(0.25 puntos)**.

**Respuesta**: