# **Tarea 3 - Word Embeddings 📚**

**Integrantes: Vicente Ardiles y Rodrigo Oportot**

**Fecha límite de entrega 📆:** 24 de mayo.

**Tiempo estimado de dedicación: 10 hrs**


**Instrucciones:**
- El ejercicio consiste en:
    - Responder preguntas relativas a los contenidos vistos en los vídeos y slides de las clases. 
    - Entrenar Word2Vec y FastText sobre un pequeño corpus.
    - Evaluar los embeddings obtenidos en una tarea de clasificación.
- La tarea se realiza en grupos de **máximo** 2 personas. Puede ser invidivual pero no es recomendable.
- La entrega es a través de u-cursos a más tardar el día estipulado arriba. No se aceptan atrasos.
- El formato de entrega es este mismo Jupyter Notebook.
- Al momento de la revisión tu código será ejecutado. Por favor verifica que tu entrega no tenga errores de compilación. 
- En el horario de auxiliar pueden realizar consultas acerca de la tarea a través del canal de Discord del curso. 


**Referencias**

Vídeos: 

- [Linear Models](https://youtu.be/zhBxDsNLZEA)
- [Neural Networks](https://youtu.be/oHZHA8h2xN0)
- [Word Embeddings](https://youtu.be/wtwUsJMC9CA)

## **Preguntas teóricas 📕 (3 puntos).** ##
Para estas preguntas no es necesario implementar código, pero pueden utilizar pseudo código.

### **Parte 1: Modelos Lineales (1.5 ptos)**

Suponga que tiene un dataset de 10.000 documentos etiquetados por 4 categorías: política, deporte, negocios y otros. 

**Pregunta 1**: Diseñe un modelo lineal capaz de clasificar un documento según estas categorías donde el output sea un vector con una distribución de probabilidad con la pertenencia a cada clase. 

Especifique: representación de los documentos de entrada, parámetros del modelo, transformaciones necesarias para obtener la probabilidad de cada etiqueta y función de pérdida escogida. **(0.75 puntos)**

**Respuesta**: 

Utilizando
Train Validacion Testing

training: 70%
Validacion: 20%
Testing: 10%

si uno divide las particiones tenemos que training es un vector con 7000 documentos
y por lo tanto nos queda que 

$x = [x_{1}, x_{2}, ..., x_{7000}]$

donde cada $x_{i}$ corresponde a la representacion BoW de cada documento y el
tamaño de cada $x_{i}$ es igual al largo de nuestro vocabulario lo cual es variable 
por lo que llamaremos este largo $n$.

por lo que $x_{i} = [ ... ]$ tiene largo n.

Como sabemos que tenemos 4 categorias: política, deporte, negocios y otros

nuestro vector $y_{i}$ tendra largo 4 e $y$ tendra un tamaño igual a la cantidad de documentos

$y = [y_{1}, y_{2}, ..., y_{7000}].$

de esta forma tenemos que:

- Dimension del input ($x_{i}$) = n
- Dimension del output ($y_{i}$) =  4

Con esto se define la matriz de pesos $W$ que tendra una dimension de $(n \times 4)$ con valores iniciales aleatorios (que luego se iran ajustando) y el vector $b$ tendra una dimension igual al output, en este caso 4, con valores iniciles aleatorios.

- $dim(b) = 4$

De esta forma tenemos que los componentes principales de nuestro modelo lineal:

$f(x) = xW + b$

al cual le aplicaremos la transformacion $softmax$ debido a que tenemos un problema Multi-clase y queremos una distribucion de probabilidad de pertenencia a cada clase.
Esta transformacion se define como:

$softmax(\vec{x})_{[i]} = \frac{e^{\vec{x}_{i}}}{\sum_{j} e^{\vec{x}_{j}}}$

Resultando que nuestro vector output $\hat{y}$ quede definido de la siguiente forma:

$\vec{\hat{y}} = softmax(\vec{x} \cdot W + \vec{b})$

y nuestra funcion de perdida sera Categorical Cross-Entropy porque nos permite trabajar 
con distribucion de probabilidades multiples clases.
No utilizaremos Cross Entropy para hard classification debido a que nuestros vectores $y$ no son del todo one-hot debido a que las categorias no son del todo excluyente entre si.

Esta funcion de loss se define como:

$L_{cross-entropy}(\vec{\hat{y}},\vec{y}) = - \sum_{i}\vec{y}_{[i]}log(\vec{\hat{y}}_{[i]})$.

**Pregunta 2**: Explique cómo funciona el proceso de entrenamiento en este tipo de modelos y su evaluación. **(0.75 puntos)**

**Respuesta**: 

En primer lugar se particionan nuestros datos que se utilizaran en Training, Validation y Testing. Por ejemplo: Training (70%), Validation (20%), Testing (10%) (Estos valores dependen de la cantidad de datos que se tengan).

- Entrenamiento

El proceso de Training utiliza los datos de training y consiste en encontrar los parametros $\Theta$ que minimizan la funcion de Loss del modelo, donde el parametro $\Theta$ consiste en los parametros del modelo lineal, es decir $W$ y $b$.
Este proceso de optimizacion de encontrar los parametros que minimizan el error, se puede llevar a cabo con diversos algoritmos, en particular, usando uno basado en el Gradiente de la funcion Loss utilizada, se puede ir ajustando los parametros hasta converger a cierto punto donde la funcion sea minima. Adicionalmente se puede considerar una regularizacion $R$ que mida la complejidad del modelo a partir de los parametros W y b utilizados. De esta forma, la funcion de optimizacion (por ejemplo, decenso de gradiente)debe considerar tanto la funcion de loss y la regularizacion $R$

- Evaluacion

Para la evaluacion de nuestro modelo, se utiliza primero la particion de Validacion sobre la cual uno realiza todos los experimentos y analiza los errores obtenidos, probar diversos modelos o ajustar hiper-parametros como lo es $\lambda$ en caso de haber una regularizacion. Finalmente cuando se tiene todo "ajustado" en base a los experimentos hechos en la particion de validacion, se hace una evaluacion final de nuestro modelo en el set de Training para tener una idea mas global del desempeño del modelo. 

### **Parte 2: Redes Neuronales (1.5 ptos)** 

Supongamos que tenemos la siguiente red neuronal.

![image.png](https://drive.google.com/uc?export=view&id=1fFTjtMvH6MY8o42_vj010y8eTuCVb5a3)

**Pregunta 1**: En clases les explicaron como se puede representar una red neuronal de una y dos capas de manera matemática. Dada la red neuronal anterior, defina la salida $\vec{\hat{y}}$ en función del vector $\vec{x}$, pesos $W^i$, bias $b^i$ y funciones $g,f,h$. 

Adicionalmente liste y explicite las dimensiones de cada matriz y vector involucrado en la red neuronal. **(0.75 Puntos)**

**Respuesta**: 
- $\vec{\hat{y}} = NN_{MLP3}(\vec{x})$ \\
- $\vec{h^{1}} = \vec{x} \cdot W^{1} + \vec{b^1}$ \\
- $\vec{h^{2}} = g(\vec{h^{1}}) \cdot W^{2} + \vec{b^2} = g(\vec{x} \cdot W^{1} + \vec{b^1}) \cdot W^{2} + \vec{b^2} $ \\
- $\vec{h^{3}} = f(\vec{h^{2}}) \cdot W^{3} + \vec{b^3} = f(g(\vec{x} \cdot W^{1} + \vec{b^1}) \cdot W^{2} + \vec{b^2}) \cdot W^{3} + \vec{b^3}$ \\
- $\vec{y} = h(\vec{h^{3}}) \cdot W^{4}$ \\

Fórmula:
- $\vec{\hat{y}} = NN_{MLP3}(\vec{x}) =(h(f(g(\vec{x} \cdot W^{1}+ \vec{b^{1}})\cdot W^{2} + \vec{b^{2}})\cdot W^{3} + \vec{b^{3}})) \cdot W^{4}$

Dimensiones: 
- La capa $\vec{x}$ input es de 3 dimensiones.
- La capa $\vec{\hat{y}}$ output es de 4 dimensiones.
- La capa $\vec{h^{1}}$ es de 2 dimensiones .
- La capa $\vec{h^{2}}$ es de 3 dimensiones.
- La capa $\vec{h^{3}}$ es de 1 dimensión.
- $W^{1}$ es de 3x2 y $\vec{b^{1}}$ es de 2 dimensiones.
- $W^{2}$ es de 2x3 y $\vec{b^{2}}$ es de 3 dimensiones.
- $W^{3}$ es de 3x1 y $\vec{b^{3}}$ es de 1 dimensión.
- $W^{4}$ es de 1x4.

**Pregunta 2**: Explique qué es backpropagation. ¿Cuáles serían los parámetros a evaluar en la red neuronal anterior durante backpropagation? **(0.25 puntos)**

**Respuesta**:
Backpropagation es el proceso matemático por el cual se calculan los valores $\vec{\delta^{l+1}_{[k]}}$ para obtener el valor de la función de pérdida L(loss function) mediante la siguiente fórmula:

- $\vec{\delta^{l}_{[j]}} = g'(\vec{h^{l}_{[j]}}) \times \sum_{k}(\vec{\delta^{l+1}_{[k]}} \times W^{l+1}_{[j,k]})$

**Pregunta 3**: Explique los pasos de backpropagation. En la red neuronal anterior: ¿Cuáles son las derivadas que debemos calcular para poder obtener $\vec{\delta^l_{[j]}}$ en todas las capas? **(0.5 puntos)**

**Respuesta**:

Pasos de backpropagation:

- Se aplica el vector input $\vec{x}$ a la red neuronal y se propaga hacia adelante a través de la red utilizando las fórmulas $\vec{h^{l}_{[j]}} = (\sum_{i} W^{l}_{[i,j]} \times \vec{z^{l-1}_{i}}) + \vec{b^{l}_{j}}$ y $\vec{z^{l}_{[j]}} = g(\vec{h^{l}}_{[j]})$ para encontrar todas las funciones de activación de las unidades ocultas y del output.
- Se evalúa $\vec{\delta^{m}_{[j]}}$ para todos los outputs de las unidades.
- Iniciar el proceso de propagación inversa, partiendo con el valor de $\vec{\delta^{l+1}_{[j]}}$ usando la ecuación descrita en la respuesta de la pregunta 2, de manera que se obtiene $\vec{\delta^{l}_{[j]}}$ para cada unidad oculta. Como se mencionó, se comienza en la parte más alta de la red (el final) y se va bajando. 
- Se usa la ecuación $\frac{\partial L}{\partial W^{l}_{[i,j]}} = \vec{\delta^{l}_{[j]}} \times \vec{z^{l-1}_{[i]}}$ para evaluar las derivadas requeridas en el paso 2, ya que utiliza la regla de la cadena.

Se deben calcular, adicionalmente, las derivadas de las funciones g, f y h tomando como argumentos sus respectivos valores $\vec{h^{l}_{[j]}}$ dependiendo de la capa para obtener todos los $\vec{\delta^{m}_{[j]}}$. 


## **Preguntas prácticas 💻 (3 puntos).** ##

### **Parte 3: Word Embeddings**

En la auxiliar 2 aprendieron como entrenar Word2Vec utilizando gensim. El objetivo de esta parte es comparar los embeddings obtenidos con dos modelos diferentes: Word2Vec y [FastText](https://radimrehurek.com/gensim/models/fasttext.html) (utilizen size=200 en FastText) entrenados en el mismo dataset de diálogos de los Simpson. 

In [1]:
import re  
import pandas as pd 
from time import time  
from collections import defaultdict 
import string 
import multiprocessing
import os
import gensim
import sklearn
from sklearn import linear_model
from collections import Counter
import numpy as np
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score, confusion_matrix, cohen_kappa_score, classification_report

# word2vec
from gensim.models import Word2Vec, KeyedVectors, FastText
from gensim.models.phrases import Phrases, Phraser
from sklearn.model_selection import train_test_split
import logging

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
logger = logging.getLogger(__name__)

Utilizando el dataset adjunto con la tarea:

In [3]:
data_file = "dialogue-lines-of-the-simpsons.zip"
df = pd.read_csv(data_file)
stopwords = pd.read_csv(
    'https://raw.githubusercontent.com/Alir3z4/stop-words/master/english.txt'
).values
stopwords = Counter(stopwords.flatten().tolist())
df = df.dropna().reset_index(drop=True) # Quitar filas vacias

**Pregunta 1**: Ayudándose de los pasos vistos en la auxiliar, entrene los modelos Word2Vec y FastText sobre el dataset anterior. **(1 punto)** (Hint, le puede servir explorar un poco los datos)

**Respuesta**:

In [4]:
df['raw_character_text'] = df['raw_character_text'].astype(str) + ' '
df_we = df['raw_character_text'] + df['spoken_words']

In [5]:
df_we.head()

0    Miss Hoover No, actually, it was a little of b...
1                  Lisa Simpson Where's Mr. Bergstrom?
2    Miss Hoover I don't know. Although I'd sure li...
3              Lisa Simpson That life is worth living.
4    Edna Krabappel-Flanders The polls will be open...
dtype: object

In [6]:
df_we.shape

(131853,)

In [7]:
from collections import Counter

# limpiar puntuaciones y separar por tokens.
punctuation = string.punctuation + "«»“”‘’…—"
stopwords = pd.read_csv(
    'https://raw.githubusercontent.com/Alir3z4/stop-words/master/spanish.txt'
).values
stopwords = Counter(stopwords.flatten().tolist())

def simple_tokenizer(doc, lower=False):
    if lower:
        tokenized_doc = doc.translate(str.maketrans(
            '', '', punctuation)).lower().split()

    tokenized_doc = doc.translate(str.maketrans('', '', punctuation)).split()
    tokenized_doc = [
        token for token in tokenized_doc if token.lower() not in stopwords
    ]
    return tokenized_doc

cleaned_content = [simple_tokenizer(doc) for doc in df_we.values]

In [8]:
print("Ejemplo de alguna frase dicha por un personaje: {}".format(cleaned_content[16]))

Ejemplo de alguna frase dicha por un personaje: ['Nelson', 'Muntz', 'I', 'didnt', 'vote', 'Votings', 'for', 'geeks']


Pensaba en juntar como un solo token los nombres y apellidos de los personajes, pero parece que no es necesario por ahora, dado que pueden identificarse solamente con su nombre, porque no se repiten en la serie.

In [9]:
# Phrases recibe una lista de oraciones, y junta bigramas que estén al menos 100 veces repetidos
# como un único token. Detrás de esto hay un modelo estadístico basado en frecuencias, probabilidades, etc
# pero en términos simples ese es el resultado

phrases = Phrases(cleaned_content, min_count=100, progress_per=5000) 

2021-05-29 02:09:22,615 : INFO : collecting all words and their counts
2021-05-29 02:09:22,617 : INFO : PROGRESS: at sentence #0, processed 0 words and 0 word types
2021-05-29 02:09:22,733 : INFO : PROGRESS: at sentence #5000, processed 57783 words and 38195 word types
2021-05-29 02:09:22,847 : INFO : PROGRESS: at sentence #10000, processed 114071 words and 66702 word types
2021-05-29 02:09:22,955 : INFO : PROGRESS: at sentence #15000, processed 167967 words and 91206 word types
2021-05-29 02:09:23,081 : INFO : PROGRESS: at sentence #20000, processed 230112 words and 117288 word types
2021-05-29 02:09:23,209 : INFO : PROGRESS: at sentence #25000, processed 291486 words and 142524 word types
2021-05-29 02:09:23,352 : INFO : PROGRESS: at sentence #30000, processed 356069 words and 167825 word types
2021-05-29 02:09:23,489 : INFO : PROGRESS: at sentence #35000, processed 417524 words and 189862 word types
2021-05-29 02:09:23,602 : INFO : PROGRESS: at sentence #40000, processed 473391 word

In [10]:
bigram = Phraser(phrases)
sentences = bigram[cleaned_content]

2021-05-29 02:09:27,876 : INFO : source_vocab length 523704
2021-05-29 02:09:33,491 : INFO : Phraser built with 128 phrasegrams


In [11]:
# para ver como quedan las noticias retokenizadas, quitar comentario a la siguiente linea:
print(sentences[1])

['Lisa', 'Simpson', 'Wheres', 'Mr', 'Bergstrom']


**Primero, W2V**

In [12]:
simpsons_w2v = Word2Vec(min_count=10,
                      window=4,
                      size=200,
                      sample=6e-5,
                      alpha=0.03,
                      min_alpha=0.0007,
                      negative=20,
                      workers=multiprocessing.cpu_count())

In [13]:
simpsons_w2v.build_vocab(sentences, progress_per=10000)

2021-05-29 02:09:40,526 : INFO : collecting all words and their counts
2021-05-29 02:09:40,528 : INFO : PROGRESS: at sentence #0, processed 0 words, keeping 0 word types
2021-05-29 02:09:40,931 : INFO : PROGRESS: at sentence #10000, processed 109503 words, keeping 12428 word types
2021-05-29 02:09:41,337 : INFO : PROGRESS: at sentence #20000, processed 220906 words, keeping 19363 word types
2021-05-29 02:09:41,775 : INFO : PROGRESS: at sentence #30000, processed 341663 words, keeping 25573 word types
2021-05-29 02:09:42,180 : INFO : PROGRESS: at sentence #40000, processed 454155 words, keeping 29941 word types
2021-05-29 02:09:42,562 : INFO : PROGRESS: at sentence #50000, processed 559415 words, keeping 34021 word types
2021-05-29 02:09:42,927 : INFO : PROGRESS: at sentence #60000, processed 658674 words, keeping 37568 word types
2021-05-29 02:09:43,314 : INFO : PROGRESS: at sentence #70000, processed 768064 words, keeping 41363 word types
2021-05-29 02:09:43,743 : INFO : PROGRESS: at 

In [14]:
t = time()
simpsons_w2v.train(sentences, total_examples=simpsons_w2v.corpus_count, epochs=15, report_delay=10)
print('Time to train the model: {} mins'.format(round((time() - t) / 60, 2)))

2021-05-29 02:09:49,424 : INFO : training model with 2 workers on 8891 vocabulary and 200 features, using sg=0 hs=0 sample=6e-05 negative=20 window=4
2021-05-29 02:09:50,461 : INFO : EPOCH 1 - PROGRESS: at 12.60% examples, 67994 words/s, in_qsize 0, out_qsize 0
2021-05-29 02:09:57,695 : INFO : worker thread finished; awaiting finish of 1 more threads
2021-05-29 02:09:57,706 : INFO : worker thread finished; awaiting finish of 0 more threads
2021-05-29 02:09:57,708 : INFO : EPOCH - 1 : training on 1472022 raw words (565825 effective words) took 8.3s, 68449 effective words/s
2021-05-29 02:09:58,732 : INFO : EPOCH 2 - PROGRESS: at 12.60% examples, 68287 words/s, in_qsize 1, out_qsize 0
2021-05-29 02:10:05,804 : INFO : worker thread finished; awaiting finish of 1 more threads
2021-05-29 02:10:05,825 : INFO : worker thread finished; awaiting finish of 0 more threads
2021-05-29 02:10:05,826 : INFO : EPOCH - 2 : training on 1472022 raw words (565221 effective words) took 8.1s, 69724 effective 

Time to train the model: 2.03 mins


In [15]:
simpsons_w2v.init_sims(replace=True)

2021-05-29 02:12:10,704 : INFO : precomputing L2-norms of word weight vectors


**Ahora, FastText con size = 200**

In [17]:
simpsons_ft = FastText(min_count=10,
                      window=4,
                      size=200,
                      sample=6e-5,
                      alpha=0.03,
                      min_alpha=0.0007,
                      negative=20,
                      workers=multiprocessing.cpu_count()
)

In [18]:
simpsons_ft.build_vocab(sentences, progress_per=10000)

2021-05-29 02:12:16,510 : INFO : collecting all words and their counts
2021-05-29 02:12:16,518 : INFO : PROGRESS: at sentence #0, processed 0 words, keeping 0 word types
2021-05-29 02:12:16,915 : INFO : PROGRESS: at sentence #10000, processed 109503 words, keeping 12428 word types
2021-05-29 02:12:17,314 : INFO : PROGRESS: at sentence #20000, processed 220906 words, keeping 19363 word types
2021-05-29 02:12:17,746 : INFO : PROGRESS: at sentence #30000, processed 341663 words, keeping 25573 word types
2021-05-29 02:12:18,154 : INFO : PROGRESS: at sentence #40000, processed 454155 words, keeping 29941 word types
2021-05-29 02:12:18,536 : INFO : PROGRESS: at sentence #50000, processed 559415 words, keeping 34021 word types
2021-05-29 02:12:18,892 : INFO : PROGRESS: at sentence #60000, processed 658674 words, keeping 37568 word types
2021-05-29 02:12:19,302 : INFO : PROGRESS: at sentence #70000, processed 768064 words, keeping 41363 word types
2021-05-29 02:12:19,706 : INFO : PROGRESS: at 

In [19]:
t = time()
simpsons_ft.train(sentences, total_examples=simpsons_ft.corpus_count, epochs=15, report_delay=10)
print('Time to train the model: {} mins'.format(round((time() - t) / 60, 2)))

2021-05-29 02:12:28,339 : INFO : training model with 2 workers on 8891 vocabulary and 200 features, using sg=0 hs=0 sample=6e-05 negative=20 window=4
2021-05-29 02:12:29,389 : INFO : EPOCH 1 - PROGRESS: at 9.90% examples, 52189 words/s, in_qsize 0, out_qsize 0
2021-05-29 02:12:38,785 : INFO : worker thread finished; awaiting finish of 1 more threads
2021-05-29 02:12:38,811 : INFO : worker thread finished; awaiting finish of 0 more threads
2021-05-29 02:12:38,813 : INFO : EPOCH - 1 : training on 1472022 raw words (565515 effective words) took 10.5s, 54075 effective words/s
2021-05-29 02:12:39,863 : INFO : EPOCH 2 - PROGRESS: at 9.90% examples, 51929 words/s, in_qsize 0, out_qsize 0
2021-05-29 02:12:49,059 : INFO : worker thread finished; awaiting finish of 1 more threads
2021-05-29 02:12:49,087 : INFO : worker thread finished; awaiting finish of 0 more threads
2021-05-29 02:12:49,089 : INFO : EPOCH - 2 : training on 1472022 raw words (565538 effective words) took 10.3s, 55087 effective 

Time to train the model: 2.61 mins


In [20]:
simpsons_ft.init_sims(replace=True)

2021-05-29 02:15:07,549 : INFO : precomputing L2-norms of word weight vectors
2021-05-29 02:15:07,645 : INFO : precomputing L2-norms of ngram weight vectors


**Pregunta 2**: Encuentre las palabras mas similares a las siguientes: Lisa, Bart, Homer, Marge. Cúal es la diferencia entre ambos resultados? Por qué ocurre esto? Intente comparar ahora Liisa en ambos modelos (doble i). Cuando escogería uno vs el otro? **(0.5 puntos)**

**Partiendo con W2V**

In [21]:
simpsons_w2v.wv.most_similar(positive=["Lisa"])

[('Bart', 0.8357011079788208),
 ('Dad', 0.8214429616928101),
 ('Mom', 0.8211581110954285),
 ('Milhouse_Houten', 0.789684534072876),
 ('Simpson', 0.7482617497444153),
 ('Adult', 0.7344263792037964),
 ('Marge', 0.660938560962677),
 ('saxophone', 0.6300346851348877),
 ('Lis', 0.6273329257965088),
 ('Allison', 0.6157004833221436)]

In [22]:
simpsons_w2v.wv.most_similar(positive=["Bart"])

[('Milhouse_Houten', 0.8635740280151367),
 ('Lisa', 0.8357011079788208),
 ('Adult', 0.791721522808075),
 ('Lis', 0.7884641289710999),
 ('Mom', 0.7711611986160278),
 ('Dad', 0.7690576314926147),
 ('Nelson_Muntz', 0.7237808108329773),
 ('Simpson', 0.7187087535858154),
 ('DOLPH', 0.693942666053772),
 ('Jimbo_Jones', 0.6926469802856445)]

In [23]:
simpsons_w2v.wv.most_similar(positive=["Homer"])

[('Grampa', 0.7722568511962891),
 ('Lenny_Leonard', 0.7664587497711182),
 ('Simpson', 0.7530102729797363),
 ('Marge', 0.7464084625244141),
 ('Carl_Carlson', 0.7454362511634827),
 ('Barney_Gumble', 0.7366361021995544),
 ('Selma_Bouvier', 0.7238911390304565),
 ('HERB', 0.721230685710907),
 ('Moe_Szyslak', 0.7101351618766785),
 ('BUCK', 0.7069899439811707)]

In [24]:
simpsons_w2v.wv.most_similar(positive=["Marge"])

[('Homie', 0.8653016090393066),
 ('honey', 0.7887694239616394),
 ('Selma_Bouvier', 0.7529628872871399),
 ('Homer', 0.7464084625244141),
 ('sweetie', 0.7189208269119263),
 ('Simpson', 0.7107959389686584),
 ('Manjula_Nahasapeemapetilon', 0.7102778553962708),
 ('HUGH', 0.6853820085525513),
 ('Helen_Lovejoy', 0.6828423738479614),
 ('Ned_Flanders', 0.6698893308639526)]

**Ahora, FastText**

In [25]:
simpsons_ft.wv.most_similar(positive=["Lisa"])

[('Lisas', 0.7683749198913574),
 ('Bart', 0.7620447874069214),
 ('Lis', 0.7487673163414001),
 ('Mom', 0.7140625715255737),
 ('Dad', 0.6832375526428223),
 ('Adult', 0.6456353664398193),
 ('Marge', 0.6443392634391785),
 ('Milhouse_Houten', 0.6246459484100342),
 ('Homer', 0.6190270185470581),
 ('Barts', 0.6011093854904175)]

In [26]:
simpsons_ft.wv.most_similar(positive=["Bart"])

[('Lisa', 0.7620446681976318),
 ('Mozart', 0.7042808532714844),
 ('Bartdude', 0.6976528167724609),
 ('Barts', 0.6872924566268921),
 ('Lis', 0.6843351125717163),
 ('Mom', 0.667917013168335),
 ('Milhouse_Houten', 0.66282057762146),
 ('Barneys', 0.6332616209983826),
 ('Grampa', 0.6241809129714966),
 ('Barn', 0.615923285484314)]

In [27]:
simpsons_ft.wv.most_similar(positive=["Homer"])

[('Grampa', 0.7332115173339844),
 ('Homey', 0.7281863689422607),
 ('Homers', 0.6997283101081848),
 ('Home', 0.6595873832702637),
 ('Marge', 0.6484546661376953),
 ('Homie', 0.6380347609519958),
 ('Grampas', 0.6369322538375854),
 ('Lisa', 0.6190270185470581),
 ('Bart', 0.5902420282363892),
 ('Moe_Szyslak', 0.5789594650268555)]

In [28]:
simpsons_ft.wv.most_similar(positive=["Marge"])

[('Marges', 0.7841347455978394),
 ('Homie', 0.6893898248672485),
 ('Marriage', 0.6791743040084839),
 ('Margarine', 0.6701800227165222),
 ('Homer', 0.6484546661376953),
 ('Lisa', 0.6443392038345337),
 ('Maggie', 0.640516996383667),
 ('Marjorie', 0.6295793056488037),
 ('honey', 0.6257938146591187),
 ('sweetie', 0.6240594387054443)]

**Respuesta**:

Al comparar ambos modelos:

- ¿Cúal es la diferencia entre ambos resultados?, ¿Por qué ocurre esto? 
W2V entrega, de manera general, valores más altos para las relaciones en comparación a FastText.

W2V muestra las relaciones de las palabras que el personaje menciona en sus diálogos, puede ser a quiénes se dirige al hablar, por ejemplo. Por otro lado, FastText entrega relaciones con palabras asociadas al mismo personaje, por ejemplo sus apodos. No debería ser tan común que un personaje mencione muchas veces, en los diálogos, su propio nombre o apodos. FastText debe entregar este resultado porque captura, por ejemplo, los diminutivos o extensiones de los nombres (Lisa, Lis, Lisas, o por ejemplo Bart, Barts, Barto, etc). Como W2V hace bag of words (sin separar las palabras en caracteres), es más conciso, pero puede que pierda palabras más extrañas, como los apodos.

Ahora, con la palabra Liisa

In [29]:
simpsons_w2v.wv.most_similar(positive=["Liisa"])

KeyError: ignored

In [30]:
simpsons_ft.wv.most_similar(positive=["Liisa"])

[('Lisa', 0.9423055648803711),
 ('Bart', 0.665289044380188),
 ('Lisas', 0.5914328694343567),
 ('Miss_Hoover', 0.5913381576538086),
 ('Marge', 0.5841068029403687),
 ('Adult', 0.5740115642547607),
 ('Bartholomew', 0.5706226229667664),
 ('Homer', 0.5691854953765869),
 ('Lis', 0.5607910752296448),
 ('Mom', 0.5581455826759338)]

En este caso, W2V no encuentra resultados para esa palabra ya que no está en su vocabulario. En cambio, FastText sí lo hace, aproximando a la palabra más cercana, en este caso, Lisa, ya que descompone las palabras en n-gramas de caracteres.

- ¿Cuándo escogería uno vs el otro?
Si tuviera un vocabulario y búsquedas mucho más estrictas y certeras, usaría W2V, sumado a que entrega valores más altos para las relaciones entre palabras del embedding. Por otro lado, en contextos donde se espera trabajar con palabras degeneradas o alteradas, es más conveniente FastText, porque no sería necesario añadirlas una por una de manera extraordinaria al vocabulario para buscarlas.

En un último aspecto, en relación a la eficiencia técnica, en caso de no poseer tiempo y/o recursos materiales suficientes, se puede elegir W2V por sobre FastText ya que tarda menos, a causa de procesar solamente las palabras y no su descomposición en caracteres.


### **Parte 4: Aplicar embeddings para clasificar**

Ahora utilizaremos los embeddings que acabamos de calcular para clasificar palabras basadas en su polaridad (positivas o negativas). 

Para esto ocuparemos el lexicón AFINN incluido en la tarea, que incluye una lista de palabras y un 1 si su connotación es positiva y un -1 si es negativa.

In [31]:
AFINN = 'AFINN_full.csv'
df_afinn = pd.read_csv(AFINN, sep='\t', header=None)

In [49]:
df_afinn

Unnamed: 0,0,1
0,tops,1
1,groan,-1
2,perfects,1
3,spammer,-1
4,saluting,1
...,...,...
3377,mediocrity,-1
3378,bold,1
3379,hating,-1
3380,unfavorable,-1


Hint: Para w2v son esperables KeyErrors debido a que no todas las palabras del corpus de los simpsons tendrán una representación en AFINN. Pueden utilizar esta función auxiliar para filtrar las filas en el dataframe que no tienen embeddings (como w2v no tiene token UNK se deben ignorar).

In [32]:
def try_apply(model, word):
    try:
        aux = model[word]
        return True
    except KeyError:
        #logger.error('Word {} not in dictionary'.format(word))
        return False

**Pregunta 1**: Transforme las palabras del corpus de AFINN a la representación en embedding que acabamos de calcular (con ambos modelos). 

Su dataframe final debe ser del estilo [embedding, sentimiento], donde los embeddings corresponden a $X$ y el sentimiento asociado con el embedding a $y$ (positivo/negativo, 1/-1). 

Para ambos modelos, separar train y test de acuerdo a la siguiente función. **(0.75 puntos)**

In [69]:
w2v_word = []
w2v_val = []

for index,row in df_afinn.iterrows():
    if try_apply(simpsons_w2v, row[0]):
        w2v_word.append(row[0])
        w2v_val.append(row[1])

lex_w2v = pd.DataFrame(list(zip(w2v_word, w2v_val)))

ft_word = []
ft_val = []

for index,row in df_afinn.iterrows():
    if try_apply(simpsons_ft, row[0]):
        ft_word.append(row[0])
        ft_val.append(row[1])
        
lex_ft = pd.DataFrame(list(zip(ft_word, ft_val)))


  This is separate from the ipykernel package so we can avoid doing imports until


In [74]:
lex_w2v[1]

0      1
1     -1
2     -1
3      1
4      1
      ..
894   -1
895   -1
896    1
897    1
898    1
Name: 1, Length: 899, dtype: int64

In [58]:
df_afinn[0]

0              tops
1             groan
2          perfects
3           spammer
4          saluting
           ...     
3377     mediocrity
3378           bold
3379         hating
3380    unfavorable
3381     scapegoats
Name: 0, Length: 3382, dtype: object

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0, test_size=0.1, stratify=y)

**Respuesta**:

Primero, el transformer para w2v y fast text.

In [33]:
from sklearn.base import BaseEstimator, TransformerMixin

class WETransformer(BaseEstimator, TransformerMixin):
    """ Transforma texto a representaciones vectoriales usando algún modelo de
        Word Embeddings.
    """
    
    def __init__(self, model, aggregation_func):
        # extraemos los embeddings desde el objeto contenedor. ojo con esta parte.
        self.model = model.wv 
        
        # indicamos la función de agregación (np.min, np.max, np.mean, np.sum, ...)
        self.aggregation_func = aggregation_func

    def simple_tokenizer(self, doc, lower=False):
        """Tokenizador. Elimina signos de puntuación, lleva las letras a minúscula(opcional) y 
           separa el texto por espacios.
        """
        if lower:
            doc.translate(str.maketrans('', '', string.punctuation)).lower().split()
        return doc.translate(str.maketrans('', '', string.punctuation)).split()
    
    def fit(self, X, y=None):
        return self

    def transform(self, X, y=None):
        
        doc_embeddings = []
        
        for doc in X:
            # tokenizamos el documento. Se llevan todos los tokens a minúscula. 
            # ojo con esto, ya que puede que tokens con minúscula y mayúscula tengan
            # distintas representaciones.
            # Por simplicidad, se asumirá que no afecta el resultado.
            tokens = self.simple_tokenizer(doc, lower = True) 
            
            selected_wv = []
            for token in tokens:
                if token in self.model.vocab:
                    selected_wv.append(self.model[token])
                    
            # si seleccionamos por lo menos un embedding para el texto, lo agregamos y luego lo añadimos.
            if len(selected_wv) > 0:
                doc_embedding = self.aggregation_func(np.array(selected_wv), axis=0)
                doc_embeddings.append(doc_embedding)
            # si no, añadimos un vector de ceros que represente a ese documento.
            else: 
                print('No pude encontrar ningún embedding en el texto: {}. Agregando vector de ceros.'.format(doc))
                doc_embeddings.append(np.zeros(self.model.vector_size)) # la dimension del modelo 
        print(doc_embeddings)
        return np.array(doc_embeddings)

**Las features que usaremos después para entrenar la regresión logística en ambos modelos**

In [48]:
#feature w2v
w2v_sum = WETransformer(simpsons_w2v, np.sum)

In [35]:
#feature FastText
ft_sum = WETransformer(simpsons_ft, np.sum)

**Los datasets de entrenamiento y testeo para cada word embedding**

In [76]:
#Datasets de train y test para W2V
X_w2v_train, X_w2v_test, y_w2v_train, y_w2v_test = train_test_split(lex_w2v[0], lex_w2v[1], random_state=0, test_size=0.1, stratify=lex_w2v[1])

In [77]:
#Datasets de train y test para FastText
X_ft_train, X_ft_test, y_ft_train, y_ft_test = train_test_split(lex_ft[0], lex_ft[1], random_state=0, test_size=0.1, stratify=lex_ft[1])

**Pregunta 2**: Entrenar una regresión logística (vista en auxiliar) y reportar accuracy, precision, recall, f1 y confusion_matrix para ambos modelos. Por qué se obtienen estos resultados? Cómo los mejorarías? **(0.75 puntos)**

Regresión Logística y pipelines

In [78]:
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

clf = LogisticRegression(max_iter=1000000)

w2v_pipeline = Pipeline([('w2v', w2v_sum), ('clf', clf)])
ft_pipeline = Pipeline([('ft', ft_sum), ('clf', clf)])

Primero, con W2V

In [80]:
w2v_pipeline.fit(X_w2v_train, y_w2v_train)

[array([-9.11222324e-02, -2.35349201e-02,  5.43644652e-02, -7.55970776e-02,
        2.15886347e-02,  1.38913766e-02,  5.78684658e-02, -3.87505768e-03,
       -6.21229485e-02, -6.94389939e-02,  5.99681064e-02,  1.05703205e-01,
       -6.24057762e-02, -5.36092743e-02,  1.34462975e-02, -1.29817665e-01,
        1.76857524e-02,  7.43525550e-02, -7.23153353e-03, -4.61425446e-03,
        1.84803203e-01, -4.94255535e-02,  4.25573625e-02,  2.65719090e-02,
        1.69914454e-01, -9.63789411e-03, -3.33230495e-02, -1.62637770e-01,
       -5.05203083e-02, -2.67551746e-02, -1.04458872e-02,  4.14671861e-02,
       -8.62445310e-02,  8.60658661e-03, -4.58735973e-02,  4.89002839e-03,
       -4.36095111e-02,  2.04144567e-02, -9.53095257e-02, -9.92841646e-02,
        2.66658999e-02,  5.72473966e-02, -1.28090440e-03,  4.01948132e-02,
       -6.28406629e-02, -8.30235854e-02, -4.33196612e-02, -1.51331574e-01,
        8.01195130e-02, -1.73499100e-02,  1.29790138e-02, -6.33268505e-02,
        2.80823861e-03, 

Pipeline(memory=None,
         steps=[('w2v',
                 WETransformer(aggregation_func=<function sum at 0x7f2b91360e60>,
                               model=<gensim.models.keyedvectors.Word2VecKeyedVectors object at 0x7f2b5e9669d0>)),
                ('clf',
                 LogisticRegression(C=1.0, class_weight=None, dual=False,
                                    fit_intercept=True, intercept_scaling=1,
                                    l1_ratio=None, max_iter=1000000,
                                    multi_class='auto', n_jobs=None,
                                    penalty='l2', random_state=None,
                                    solver='lbfgs', tol=0.0001, verbose=0,
                                    warm_start=False))],
         verbose=False)

In [81]:
y_w2v_pred = w2v_pipeline.predict(X_w2v_test)

[array([-7.49439597e-02,  1.41188875e-01,  6.50384603e-03, -2.64870748e-02,
        5.71318064e-03,  7.57513419e-02, -4.97334450e-02, -1.07265778e-01,
       -4.63469066e-02, -3.38336825e-02,  8.46127719e-02,  6.61805421e-02,
       -1.34360507e-01, -1.03504155e-02, -2.46499404e-02, -5.84256612e-02,
       -8.17358717e-02,  3.65678221e-03, -9.37235281e-02, -1.73384827e-02,
        1.35678053e-01, -1.02646120e-01, -9.40822437e-02,  7.70549802e-03,
        1.45708025e-01, -7.34133199e-02,  1.35990158e-01, -1.18232667e-01,
       -9.82656609e-03, -4.52934727e-02, -1.01210125e-01,  8.31680000e-02,
        3.81341577e-02,  3.89644280e-02, -3.73707563e-02,  9.55284610e-02,
       -1.10344961e-01, -7.75528029e-02, -1.34932660e-02, -1.23557955e-01,
        9.32242349e-02,  1.07308410e-01,  5.16992547e-02, -1.04291905e-02,
       -7.33807310e-02, -9.19321328e-02,  8.07781518e-03, -1.97343737e-01,
        4.35907021e-02, -1.24756759e-03,  1.14725053e-01, -4.86774035e-02,
       -1.53974853e-02, 

In [82]:
conf_matrix_w2v = confusion_matrix(y_w2v_test, y_w2v_pred)
print(conf_matrix_w2v)

[[46  5]
 [19 20]]


In [84]:
print(classification_report(y_w2v_test, y_w2v_pred))

              precision    recall  f1-score   support

          -1       0.71      0.90      0.79        51
           1       0.80      0.51      0.62        39

    accuracy                           0.73        90
   macro avg       0.75      0.71      0.71        90
weighted avg       0.75      0.73      0.72        90



Ahora, con FastText

In [85]:
ft_pipeline.fit(X_ft_train, y_ft_train)

No pude encontrar ningún embedding en el texto: vibrant. Agregando vector de ceros.
No pude encontrar ningún embedding en el texto: ineptitude. Agregando vector de ceros.
No pude encontrar ningún embedding en el texto: undeserving. Agregando vector de ceros.
No pude encontrar ningún embedding en el texto: triumphant. Agregando vector de ceros.
No pude encontrar ningún embedding en el texto: devastated. Agregando vector de ceros.
No pude encontrar ningún embedding en el texto: pessimistic. Agregando vector de ceros.
No pude encontrar ningún embedding en el texto: gloomy. Agregando vector de ceros.
No pude encontrar ningún embedding en el texto: predatory. Agregando vector de ceros.
No pude encontrar ningún embedding en el texto: disabilities. Agregando vector de ceros.
No pude encontrar ningún embedding en el texto: fearless. Agregando vector de ceros.
No pude encontrar ningún embedding en el texto: disgust. Agregando vector de ceros.
No pude encontrar ningún embedding en el texto: deni

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



Pipeline(memory=None,
         steps=[('ft',
                 WETransformer(aggregation_func=<function sum at 0x7f2b91360e60>,
                               model=<gensim.models.keyedvectors.FastTextKeyedVectors object at 0x7f2b5e6f3310>)),
                ('clf',
                 LogisticRegression(C=1.0, class_weight=None, dual=False,
                                    fit_intercept=True, intercept_scaling=1,
                                    l1_ratio=None, max_iter=1000000,
                                    multi_class='auto', n_jobs=None,
                                    penalty='l2', random_state=None,
                                    solver='lbfgs', tol=0.0001, verbose=0,
                                    warm_start=False))],
         verbose=False)

In [86]:
y_ft_pred = ft_pipeline.predict(X_ft_test)

[1;30;43mSe han truncado las últimas 5000 líneas del flujo de salida.[0m
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]), array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 

In [87]:
conf_matrix_ft = confusion_matrix(y_ft_test, y_ft_pred)
print(conf_matrix_ft)

[[212   9]
 [100  17]]


In [88]:
print(classification_report(y_ft_test, y_ft_pred))

              precision    recall  f1-score   support

          -1       0.68      0.96      0.80       221
           1       0.65      0.15      0.24       117

    accuracy                           0.68       338
   macro avg       0.67      0.55      0.52       338
weighted avg       0.67      0.68      0.60       338



**Respuesta**:

-  ¿Por qué se obtienen estos resultados? 

FastText desempeñó mal en recall y f1-score para la clase 1, inclinándose severamente a -1. Por otro lado, W2V fue mucho más estable en todos los aspectos. Por razones desconocidas hasta el momento, FastText sufre con la métrica de recall, disminuyendo su verdadera eficacia al clasificar si lo comparamos con W2V, más consistente, a pesar de estar muy alejado de FastText al clasificar la clase -1. Puede que se deba a un desbalance al momento de buscar los lexicons en los embeddings creados.

- ¿Cómo los mejorarías?

Añadiendo más features, usando un modelo de word embeddings pre-entrenado y probando con otros clasificadores binarios, junto con modificar algunos hiperparámetros en varios lugares del proceso.

# Bonus: +0.25 puntos en cualquier pregunta

**Pregunta 1**: Replicar la parte anterior utilizando embeddings pre-entrenados en un dataset más grande y obtener mejores resultados. Les puede servir [ésta](https://radimrehurek.com/gensim/downloader.html#module-gensim.downloader) documentacion de gensim **(0.25 puntos)**.

**Respuesta**: