# Práctica 2 - Word2Vec

- Martínez Ostoa Néstor I.
- Procesamiento de Lenguaje Natural
- IeC - FI - UNAM

--- 
**Objetivo**: A partir del corpus seleccionado en el notebook anterior **lab-1-bpe-algorithm.ipynb** realizar un modelo de embeddings basado en Word2Vec. 

Pasos a realizar: 

1. Trabajar con el corpus tokenizado
2. Obtener los pares de entrenamiento a partir de los contextos
3. Construir una red neuronal con una capa con 128 unidades ocultas. Entrenar la red para obtener los embeddings
4. Evaluar el modelo (capa de salida) con Entropía o Perplejidad
5. Visualizar los embeddings
6. Guardar los vectores de la capa de embedding asociados a las palabras

---

**Corpus elegido:** Don't Patronize Me! dataset ([link](https://github.com/Perez-AlmendrosC/dontpatronizeme))

- Este corpus contiene $10,468$ párrafos extraídos de artículos de noticias con el objetivo principal de realizar un análisis para detectar lenguaje condescendiente (*patronizing and condescending language PCL*) en grupos socialmente vulnerables (refugiados, familias pobres, personas sin casa, etc)
- Cada uno de estos párrafos están anotados con etiquetas que indican el tipo de lenguaje PCL que se encuentra en él (si es que está presente). Los párrafos se extrajeron del corpus [News on Web (NOW)](https://www.english-corpora.org/now/)
- [Link al paper principal](https://aclanthology.org/2020.coling-main.518/)


**Estructura del corpus (original - antes del proceso de limpieza)**

- De manera general, el dataset contiene párrafos anotados con una etiqueta con valores entre $0$ y $4$ que indican el nivel de lenguaje PCL presente
- Cada instancia del dataset está conformada de la siguiente manera:
    - ```<doc-id>```: id del documento dentro del corpus NOW
    - ```<keyword>```: término de búsqueda utilizado para extraer textos relacionados con una comunidad en específico
    - ```<country-code>```: código de dos letras ISO Alpha-2
    - ```<paragraph>```: párrafo perteneciente al ```<keyword>```
    - ```<label>```: entero que indica el nivel de PCL presente
    
**Estructura del corpus actual (después del proceso de limpieza)**

- ```paragraph```: párrafo limpio sin stop words, signos de puntuación

## Bibliotecas requeridas

In [130]:
import string
import re
import pandas as pd
import numpy as np
import plotly.graph_objects as go
import nltk
from nltk.corpus import stopwords
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/nestorivanmo/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

## Tokenización del corpus

- Como el corpus ya está limpio, lo único que nos queda por hacer es tokenizarlo

In [229]:
path = "../dontpatronizeme_v1.4/dontpatronizeme_pcl_clean.tsv"
df = pd.read_csv(path)
print(f"Número de párrafos: {df.shape[0]}")
df.head()

Número de párrafos: 10468


Unnamed: 0,paragraph
0,living times absolute insanity pretty sure peo...
1,libya today countless number ghanaian nigerian...
2,white house press secretary sean spicer said f...
3,council customers signs would displayed two sp...
4,like received migrants fleeing el salvador gua...


In [230]:
tokenized_data = []
for idx, row in df.iterrows():
    tdata = nltk.word_tokenize(row["paragraph"])
    tokenized_data.append(tdata)
    
tokenized_df = pd.DataFrame({"tokenized_paragraph": tokenized_data})
tokenized_df.head()

Unnamed: 0,tokenized_paragraph
0,"[living, times, absolute, insanity, pretty, su..."
1,"[libya, today, countless, number, ghanaian, ni..."
2,"[white, house, press, secretary, sean, spicer,..."
3,"[council, customers, signs, would, displayed, ..."
4,"[like, received, migrants, fleeing, el, salvad..."


In [231]:
print(f"Original data:\n{df.iloc[0,0]} \n")
print(f"Tokenized data:\n{tokenized_df.iloc[0,0]}")

Original data:
living times absolute insanity pretty sure people aware waking every day check news seemed carry feeling panic dread action heroes probably face trying decide whether cut blue green wire ticking bomb except bomb instructions long ago burned fire imminent catastrophe seems likeliest outcome hard stay onedge long though natural people become inured constant chaos slump malaise hopelessness pessimism 

Tokenized data:
['living', 'times', 'absolute', 'insanity', 'pretty', 'sure', 'people', 'aware', 'waking', 'every', 'day', 'check', 'news', 'seemed', 'carry', 'feeling', 'panic', 'dread', 'action', 'heroes', 'probably', 'face', 'trying', 'decide', 'whether', 'cut', 'blue', 'green', 'wire', 'ticking', 'bomb', 'except', 'bomb', 'instructions', 'long', 'ago', 'burned', 'fire', 'imminent', 'catastrophe', 'seems', 'likeliest', 'outcome', 'hard', 'stay', 'onedge', 'long', 'though', 'natural', 'people', 'become', 'inured', 'constant', 'chaos', 'slump', 'malaise', 'hopelessness', 'pe

## Obtención de pares de entrenamiento a partir de los contextos

**Entrada**: 
- DataFrame con los párrafos tokenizados

**Salida**: 
- $X$: matriz de $V\times m$ con los vectores de las palabras de contexto: ```<Pandas DataFrame>```
- $Y$: matriz de $V \times m$ con los vectores de las palabras centradas: ```<Pandas DataFrame>```

donde $V$ es el tamaño del vocabulario de palabras del corpus y $m$ es el tamaño de la ventana y se define como $m=2c + 1$

---
**Proceso**:

1. **Definir $C$**
2. **Obtener un vocabulario del corpus**
3. **Para cada párrafo tokenizado**:
    - *Obtener el vector de palabras de contexto*:
        - Con base en $C$, obtener una lista de palabras de contexto
        - Para cada palabra de contexto, obtener su codificación *one-hot*
        - Hacer el promedio de cada uno de los vectores de contexto
    - *Obtener el vector de palabra de centrado*:
        - Realizar la codificación *one-hot*
    - *Almacenar ambos vectores en dos matrices: $X$ y $Y$*


### $C$ - Tamaño del contexto

In [232]:
C = 2

### Vocabulario del corpus

A parte del vocabulario del corpus, obtendremos dos diccionarios útiles:

1. ```word_to_index```:
    - **Llave**: palabra del corpus
    - **Valor**: índice numérico dentro del corpus
    
2. ```index_to_word```: 
    - **Llave**: índice numérico de la palabra dentro del corpus
    - **Valor**: palabra del corpus

In [233]:
def get_word_vocab(tokenized_data):
    """
    Params:
    -------
    tokenized_data: <Pandas Dataframe>
    
    Returns:
    --------
    word_vocab: <set>
    
    N: <int>
        - Size of the word vocabulary
    """
    word_vocab = set()
    for _, row in tokenized_data.iterrows():
        tokenized_paragraph = row[tokenized_data.columns[0]]
        
        for word in tokenized_paragraph:
            word_vocab.add(word)
    
    return word_vocab, len(word_vocab)

In [234]:
word_vocab, V = get_word_vocab(tokenized_df)

In [235]:
print(f"Vocabulary size:\n- {V}\n")
print(f"Vocabulary sample:")
for w in list(word_vocab)[130:135]: print(f"- {w}")

Vocabulary size:
- 30732

Vocabulary sample:
- conflicts
- leagues
- pcg
- subtext
- gambling


In [236]:
def get_dictionaries(word_vocab):
    """
    Params:
    -------
    word_vocab: <set>
        - Contains all the words in the corpus
        
    Returns:
    --------
    word_to_index: <dictionary>
        - Key: word
        - Value: index of the word in the corpus
        
    index_to_word: <dictionary>
        - Key: index of the word in the corpus
        - Value: word
    """
    word_to_index = dict()
    index_to_word = dict()
    
    words = sorted(list(word_vocab))
    for idx, word in enumerate(words):
        index_to_word[idx] = word
        word_to_index[word] = idx
        
    return word_to_index, index_to_word


In [237]:
word_to_index, index_to_word = get_dictionaries(word_vocab)

In [238]:
print(f"word_to_index: {word_to_index['abstain']}")
print(f"index_to_word: {index_to_word[123]}")

word_to_index: 123
index_to_word: abstain


### Obtención de $X$ y $Y$

In [242]:
def get_one_hot_vector(word, word_to_index, V):
    """
    Params:
    -------
    word: <str>
    
    word_to_index: <dictionary>
        - Key: word
        - Value: index of the word in the corpus
    
    V: <int>
        - size of the corpus' vocabulary of words
    
    Returns:
    -------
    oh_vector: <Numpy's ndarray>
    """
    oh_vector = np.zeros(V)
    oh_vector[word_to_index[word]] = 1
    
    return oh_vector

def get_one_hot_from_context_words(context_words, word_to_index, V):
    context_words_vectors = [get_one_hot_vector(w, word_to_index, V) for w in context_words]
    return np.mean(context_words_vectors, axis=0)
    

def get_context_centered_words(tokenized_paragraph, C):
    """
    Params:
    -------
    tokenized_paragraph: <list>
    
    C: <int>
        - Size of the context
    
    Returns:
    -------
    context_words: <list>
    
    centered_words: <matrix>
    """
    context_words_matrix = []
    centered_words = tokenized_paragraph
    
    m = len(tokenized_paragraph)
    for idx, word in enumerate(centered_words):
        context_words = []
        
        # Context words before centered word
        if idx < C and idx != 0:
            context_words += tokenized_paragraph[:idx]
        else:
            context_words += tokenized_paragraph[idx-C:idx]
            
        # Context words after centered word
        if idx > m-C and idx != m-1:
            context_words += tokenized_paragraph[idx:]
        else:
            context_words += tokenized_paragraph[idx+1:idx+C+1]
            
        context_words_matrix.append(context_words)
    
    return context_words_matrix, centered_words

In [258]:
def get_X_Y(tokenized_paragraphs_df, word_to_index, C, V):
    """
    Params:
    -------
    tokenized_paragraphs_df: <Pandas DataFrame>
    
    word_to_index: dictionary where keys are words and values are indices of the word in the corpus
    
    C: <int>
        - Size of the context
    
    V: <int>
        - Size of the vocabulary
    
    Returns:
    --------
    XY: <Pandas DataFrame>
    """
    X = []
    Y = []
    for idx, row in tokenized_paragraphs_df.iterrows():
        paragraph = row[tokenized_paragraphs_df.columns[0]]
        context_words_matrix, centered_words = get_context_centered_words(paragraph, C)
        
        for idx, context_words in enumerate(context_words_matrix):
            Y.append(get_one_hot_vector(centered_words[idx], word_to_index, V))
            X.append(get_one_hot_from_context_words(context_words, word_to_index, V))
    
    return pd.DataFrame({'X': X, 'Y': Y})
        

In [261]:
data_df = get_X_Y(tokenized_df.iloc[:5, :], word_to_index, C, V)

In [262]:
print(f"Data shape: {data_df.shape}")
data_df.head()

Data shape: (139, 2)


Unnamed: 0,X,Y
0,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ..."
1,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ..."
2,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ..."
3,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ..."
4,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ..."
