# Práctica 2 - Word2Vec

- Martínez Ostoa Néstor I.
- Procesamiento de Lenguaje Natural
- IeC - FI - UNAM

--- 
**Objetivo**: A partir del corpus seleccionado en el notebook anterior **lab-1-bpe-algorithm.ipynb** realizar un modelo de embeddings basado en Word2Vec. 

Pasos a realizar: 

1. Trabajar con el corpus tokenizado
2. Obtener los pares de entrenamiento a partir de los contextos
3. Construir una red neuronal con una capa con 128 unidades ocultas. Entrenar la red para obtener los embeddings
4. Evaluar el modelo (capa de salida) con Entropía o Perplejidad
5. Visualizar los embeddings
6. Guardar los vectores de la capa de embedding asociados a las palabras

---

**Corpus elegido:** Don't Patronize Me! dataset ([link](https://github.com/Perez-AlmendrosC/dontpatronizeme))

- Este corpus contiene $10,468$ párrafos extraídos de artículos de noticias con el objetivo principal de realizar un análisis para detectar lenguaje condescendiente (*patronizing and condescending language PCL*) en grupos socialmente vulnerables (refugiados, familias pobres, personas sin casa, etc)
- Cada uno de estos párrafos están anotados con etiquetas que indican el tipo de lenguaje PCL que se encuentra en él (si es que está presente). Los párrafos se extrajeron del corpus [News on Web (NOW)](https://www.english-corpora.org/now/)
- [Link al paper principal](https://aclanthology.org/2020.coling-main.518/)


**Estructura del corpus (original - antes del proceso de limpieza)**

- De manera general, el dataset contiene párrafos anotados con una etiqueta con valores entre $0$ y $4$ que indican el nivel de lenguaje PCL presente
- Cada instancia del dataset está conformada de la siguiente manera:
    - ```<doc-id>```: id del documento dentro del corpus NOW
    - ```<keyword>```: término de búsqueda utilizado para extraer textos relacionados con una comunidad en específico
    - ```<country-code>```: código de dos letras ISO Alpha-2
    - ```<paragraph>```: párrafo perteneciente al ```<keyword>```
    - ```<label>```: entero que indica el nivel de PCL presente
    
**Estructura del corpus actual (después del proceso de limpieza)**

- ```paragraph```: párrafo limpio sin stop words, signos de puntuación

## 0. Bibliotecas requeridas

In [1]:
import string
import re
import pandas as pd
import numpy as np
import plotly.graph_objects as go
import nltk
from nltk.corpus import stopwords
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/nestorivanmo/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

## 1. Tokenización del corpus

- Como el corpus ya está limpio, lo único que nos queda por hacer es tokenizarlo

In [2]:
path = "../dontpatronizeme_v1.4/dontpatronizeme_pcl_clean.tsv"
df = pd.read_csv(path)
df = df.sample(frac=0.15, random_state=0)
print(f"Número de párrafos: {df.shape[0]}")
df.head()

Número de párrafos: 1570


Unnamed: 0,paragraph
4007,refugees identified ioc possible contenders va...
9503,mention moments highlight illustrate potential...
6994,many celebrities wore blue ribbons support ame...
3629,game latest longrunning growing strategyrpg se...
8107,amy fischer policy director texasbased immigra...


In [3]:
tokenized_data = []
for idx, row in df.iterrows():
    tdata = nltk.word_tokenize(row["paragraph"])
    tokenized_data.append(tdata)
    
tokenized_df = pd.DataFrame({"tokenized_paragraph": tokenized_data})
tokenized_df.head()

Unnamed: 0,tokenized_paragraph
0,"[refugees, identified, ioc, possible, contende..."
1,"[mention, moments, highlight, illustrate, pote..."
2,"[many, celebrities, wore, blue, ribbons, suppo..."
3,"[game, latest, longrunning, growing, strategyr..."
4,"[amy, fischer, policy, director, texasbased, i..."


In [4]:
print(f"Original data:\n{df.iloc[0,0]} \n")
print(f"Tokenized data:\n{tokenized_df.iloc[0,0]}")

Original data:
refugees identified ioc possible contenders various sports selection made june un refugee agency source told afp 

Tokenized data:
['refugees', 'identified', 'ioc', 'possible', 'contenders', 'various', 'sports', 'selection', 'made', 'june', 'un', 'refugee', 'agency', 'source', 'told', 'afp']


## 2. Obtención de pares de entrenamiento a partir de los contextos

**Entrada**: 
- DataFrame con los párrafos tokenizados

**Salida**: 
- $X$: matriz de $V\times m$ con los vectores de las palabras de contexto: ```<Pandas DataFrame>```
- $Y$: matriz de $V \times m$ con los vectores de las palabras centradas: ```<Pandas DataFrame>```

donde $V$ es el tamaño del vocabulario de palabras del corpus y $m$ es el tamaño de la ventana y se define como $m=2c + 1$

---
**Proceso**:

1. **Definir $C$**
2. **Obtener un vocabulario del corpus**
3. **Para cada párrafo tokenizado**:
    - *Obtener el vector de palabras de contexto*:
        - Con base en $C$, obtener una lista de palabras de contexto
        - Para cada palabra de contexto, obtener su codificación *one-hot*
        - Hacer el promedio de cada uno de los vectores de contexto
    - *Obtener el vector de palabra de centrado*:
        - Realizar la codificación *one-hot*
    - *Almacenar ambos vectores en dos matrices: $X$ y $Y$*


### $C$ - Tamaño del contexto

In [5]:
C = 2

### Vocabulario del corpus

A parte del vocabulario del corpus, obtendremos dos diccionarios útiles:

1. ```word_to_index```:
    - **Llave**: palabra del corpus
    - **Valor**: índice numérico dentro del corpus
    
2. ```index_to_word```: 
    - **Llave**: índice numérico de la palabra dentro del corpus
    - **Valor**: palabra del corpus

In [6]:
def get_word_vocab(tokenized_data):
    """
    Params:
    -------
    tokenized_data: <Pandas Dataframe>
    
    Returns:
    --------
    word_vocab: <set>
    
    N: <int>
        - Size of the word vocabulary
    """
    word_vocab = set()
    for _, row in tokenized_data.iterrows():
        tokenized_paragraph = row[tokenized_data.columns[0]]
        
        for word in tokenized_paragraph:
            word_vocab.add(word)
    
    return word_vocab, len(word_vocab)

In [7]:
word_vocab, V = get_word_vocab(tokenized_df)

In [8]:
print(f"Vocabulary size:\n- {V}\n")
print(f"Vocabulary sample:")
for w in list(word_vocab)[130:135]: print(f"- {w}")

Vocabulary size:
- 10672

Vocabulary sample:
- lab
- recently
- gleaming
- species
- less


In [9]:
def get_dictionaries(word_vocab):
    """
    Params:
    -------
    word_vocab: <set>
        - Contains all the words in the corpus
        
    Returns:
    --------
    word_to_index: <dictionary>
        - Key: word
        - Value: index of the word in the corpus
        
    index_to_word: <dictionary>
        - Key: index of the word in the corpus
        - Value: word
    """
    word_to_index = dict()
    index_to_word = dict()
    
    words = sorted(list(word_vocab))
    for idx, word in enumerate(words):
        index_to_word[idx] = word
        word_to_index[word] = idx
        
    return word_to_index, index_to_word


In [10]:
word_to_index, index_to_word = get_dictionaries(word_vocab)

### Obtención de $X$ y $Y$

In [11]:
def get_one_hot_vector(word, word_to_index, V):
    """
    Params:
    -------
    word: <str>
    
    word_to_index: <dictionary>
        - Key: word
        - Value: index of the word in the corpus
    
    V: <int>
        - size of the corpus' vocabulary of words
    
    Returns:
    -------
    one_hot_vector: <Numpy's ndarray>
    """
    one_hot_vector = np.zeros(V)
    one_hot_vector[word_to_index[word]] = 1
    return one_hot_vector


def get_one_hot_from_context_words(context_words, word_to_index, V):
    """
    Params:
    -------
    context_words: <list>

    word_to_index: <dictionary>
    
    V: <int>
    
    Returns:
    --------
    one_hot_vector: <numpy's ndarray>
        - Mean representation of all the context words' one hot vectors
    """
    one_hot_vectors = [get_one_hot_vector(w, word_to_index, V) for w in context_words]
    return np.mean(one_hot_vectors, axis=0)
    

def get_context_centered_words(tokenized_paragraph, C):
    """
    Params:
    -------
    tokenized_paragraph: <list>
    
    C: <int>
        - Size of the context
    
    Returns:
    -------
    context_words: <list>
    
    centered_words: <matrix>
    """
    context_words_matrix = []
    centered_words = tokenized_paragraph
    
    m = len(tokenized_paragraph)
    for idx, word in enumerate(centered_words):
        context_words = []
        
        # Context words before centered word
        if idx < C and idx != 0: context_words += tokenized_paragraph[:idx]
        else:                    context_words += tokenized_paragraph[idx-C:idx]
            
        # Context words after centered word
        if idx > m-C and idx != m-1: context_words += tokenized_paragraph[idx:]
        else:                        context_words += tokenized_paragraph[idx+1:idx+C+1]
            
        context_words_matrix.append(context_words)
    
    return context_words_matrix, centered_words

In [12]:
def get_X_Y(tokenized_paragraphs_df, word_to_index, V, C):
    """
    Params:
    -------
    tokenized_paragraphs_df: <Pandas DataFrame>
    
    word_to_index: dictionary where keys are words and values are indices of the word in the corpus
    
    C: <int>
        - Size of the context
    
    V: <int>
        - Size of the vocabulary
    
    Returns:
    --------
    XY: <Pandas DataFrame>
    """
    X = []
    Y = []
    centered_words_list = []
    context_words_list = []
    for _, row in tokenized_paragraphs_df.iterrows():
        paragraph = row[tokenized_paragraphs_df.columns[0]]
        context_words_matrix, centered_words = get_context_centered_words(paragraph, C)
        
        for idx, context_words in enumerate(context_words_matrix):
            centered_words_list.append(centered_words[idx])
            Y.append(
                get_one_hot_vector(centered_words[idx], word_to_index, V)
            )
            
            context_words_list.append(context_words)
            X.append(
                get_one_hot_from_context_words(context_words, word_to_index, V)
            )
    
    df_dict = {
        "centered_word": np.array(centered_words_list),
        "context_words": np.array(context_words_list),
        "X": X,
        "Y": Y,
    }
    XY = pd.DataFrame(df_dict)
    return XY
        

In [13]:
data_df = get_X_Y(tokenized_df, word_to_index, V, C)

  return _methods._mean(a, axis=axis, dtype=dtype,
  ret = ret.dtype.type(ret / rcount)
  "context_words": np.array(context_words_list),


In [14]:
print(tokenized_df.shape)
print(data_df.shape)
data_df.head()

(1570, 1)
(38069, 4)


Unnamed: 0,centered_word,context_words,X,Y
0,refugees,"[identified, ioc]","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ..."
1,identified,"[refugees, ioc, possible]","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ..."
2,ioc,"[refugees, identified, possible, contenders]","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ..."
3,possible,"[identified, ioc, contenders, various]","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ..."
4,contenders,"[ioc, possible, various, sports]","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ..."


In [15]:
data_df.iloc[1, 2].shape

(10672,)

In [31]:
X = data_df['X']
Y = data_df['Y']

print(f"X shape: {X.shape[0]} x {X.iloc[0].shape[0]}")
print(f"Y shape: {Y.shape[0]} x {Y.iloc[0].shape[0]}")

X shape: 38069 x 10672
Y shape: 38069 x 10672


## 3. Red Neuronal

**Instrucción**: construir una red neuronal cocn 128 unidades ocultas. Entrenar la red para obtener los embeddings. 

**Desarrollo**: en esta práctica estaremos utilizando la arquitectura neuronal **word2vec** para genear embeddings de palabras. Concretamente, estaremos utilizando **CBOW (continuous bag-of-words)** como diseño de arquitectura neuronal en la cual notaremos lo siguiente: 

- La entrada a esta red neuronal serán los vectores de palabras de contexto $X$
- La salida de esta red neuronal será el vector de palabras de centrado estimado $\hat{y}$

---

**Arquitectura neuronal - CBOW**

- **Capa de entrada $X$:**
    - Matriz de vectores de palabras de contexto $X$
    - $X$ es de dimensiones $V\times m$
        - $V=38069$
        - $m=10672$
- **Capa oculta $H$:**
    - $H$ es de dimensiones $N\times m$
        - $N = 128$ 
    - $H = \text{ReLU}(Z_1)$
    - $Z_1 = W_1X + B_1 $
- **Capa de salida $\hat{y}$:**
    - $\hat{y}$ es de dimensiones $V \times m$
    - $\hat{y} = \text{softmax}(Z_2)$
    - $Z_2 = W_2H + B_2$

---

### 3.1 Funciones de activación

Para implementar esta red neuronal, utilizamos dos funciones de activación:

1. **Rectified Linear Unit (ReLU)**:
    - $\text{ReLU}(z) = \max(0, z)$
2. **Softmax**
    - $\hat{y} = \frac{\exp(z)}{\sum_{j=1}^V \exp(z_j)}$

In [17]:
# Funciones de activación
def ReLU(z):
    result = z.copy()
    result[result < 0] = 0    
    return result

def softmax(z):
    return np.exp(z)/np.sum(np.exp(z))

### 3.2 Forward propagation

1. Definición del hiperparámetro $N$
2. Inicialización de las matrices $W_1, W_2, B_1, B_2$
3. Funciones para calcular $Z_1, H$

In [18]:
N = 128

In [58]:
def init_weights_biases(N, V, random_state=0):
    W1 = np.random.rand(N,V)
    B1 = np.random.rand(N,1)
    W2 = np.random.rand(V,N)
    B2 = np.random.rand(V,1)
    return W1, B1, W2, B2
    

def forward_propagation(X_i, W1, B1, W2, B2):
    X_i = X_i.reshape((X_i.shape[0], 1))
    H = ReLU(W1@X_i + B1)
    Z = np.dot(W2, H) + B2
    return H, Z

In [59]:
print(f"N: {N}\tV: {V}")
W1, B1, W2, B2 = init_weights_biases(N, V)
print(f"W1 shape: {W1.shape}")
print(f"B1 shape: {B1.shape}")
print(f"W2 shape: {W2.shape}")
print(f"B2 shape: {B2.shape}")

H, Z = forward_propagation(X.iloc[0], W1, B1, W2, B2)
print(f"H shape: {H.shape}")
print(f"Z shape: {Z.shape}")

N: 128	V: 10672
W1 shape: (128, 10672)
B1 shape: (128, 1)
W2 shape: (10672, 128)
B2 shape: (10672, 1)
H shape: (128, 1)
Z shape: (10672, 1)


### 3.3 Función de costo

Para esta red neuronal utilizaremos la función pérdida entropía cruzada la cual se define como: 

$$ J=-\sum_{k=1}^{V}y_k\log{\hat{y}_k} \tag{6}$$

In [60]:
def cross_entropy_loss(y_predicted, y_actual):
    return np.sum(-np.log(y_predicted)*y_actual)

### 3.4 Backpropagation

In [None]:
def backpropagation(X_i, y, y_hat, H, W1, B1, W2, B2, batch_size):
    grad_W1 = (1/batch_size) * ReLU((W2.T@(y_hat - y))@X_i.T)
    grad_W2 = (1/batch_size) * (y_hat - y)@H.T
    grad_b1 = np.sum((1/batch_size) * )
    

### 3.5 Gradient Desccent

## 4. Evaluación del modelo

## 5. Visualización de los Word Embeddings

## 6. Almacenamiento

**Referencias**:


- [V. Mijangos - Curso Procesamiento de Lenguaje Natural](https://github.com/VMijangos/Curso-Procesamiento-de-Lenguaje-Natural/tree/master/Notebooks)
- [ElotlMX - Curso Redes Neuronales](https://github.com/ElotlMX/Curso_redes)
- [Deep Learning AI NLP Specialization](https://www.coursera.org/specializations/natural-language-processing)