# Práctica 1 - Algoritmo BPE

- Martínez Ostoa Néstor I.
- Procesamiento de Lenguaje Natural
- IeC - FI - UNAM

--- 
**Objetivo**: Preprocesar un corpus a partir de métodos basados en lenguajes formales y tokenizarlo en subpalabras

De manera general, hay que seguir los siguientes pasos: 

1. Selección del corpus
2. Limpieza del corpus
3. Algoritmo BPE

## Selección del corpus

- Escoger un corpus de cualquier idioma y de un tamãno mayor a $10000$

--- 

**Corpus elegido:** Don't Patronize Me! dataset ([link](https://github.com/Perez-AlmendrosC/dontpatronizeme))

- Este corpus contiene $10,637$ párrafos extraídos de artículos de noticias con el objetivo principal de realizar un análisis para detectar lenguaje condescendiente (*patronizing and condescending language PCL*) en grupos socialmente vulnerables (refugiados, familias pobres, personas sin casa, etc)
- Cada uno de estos párrafos están anotados con etiquetas que indican el tipo de lenguaje PCL que se encuentra en él (si es que está presente). Los párrafos se extrajeron del corpus [News on Web (NOW)](https://www.english-corpora.org/now/)
- [Link al paper principal](https://aclanthology.org/2020.coling-main.518/)

---

**Estructura del corpus**

- De manera general, el dataset contiene párrafos anotados con una etiqueta con valores entre $0$ y $4$ que indican el nivel de lenguaje PCL presente
- Cada instancia del dataset está conformada de la siguiente manera:
    - ```<doc-id>```: id del documento dentro del corpus NOW
    - ```<keyword>```: término de búsqueda utilizado para extraer textos relacionados con una comunidad en específico
    - ```<country-code>```: código de dos letras ISO Alpha-2
    - ```<paragraph>```: párrafo perteneciente al ```<keyword>```
    - ```<label>```: entero que indica el nivel de PCL presente

In [1]:
import string
import re

import nltk
from nltk.corpus import stopwords

import pandas as pd

In [2]:
path = "../dontpatronizeme_v1.3/dontpatronizeme_pcl.tsv"

cols = ["doc_id", "keyword", "country-code", "paragraph", "label"]
df = pd.read_csv(path, sep='\t', skiprows=4, names=cols)

df.head()

Unnamed: 0,doc_id,keyword,country-code,paragraph,label
0,@@23953477,in-need,in,The ones in need of constant medical care are ...,0
1,@@4703096,immigrant,jm,NBC and Spanish-language Univision both declin...,0
2,@@25567226,in-need,hk,A second T-Home project is being launched in t...,0
3,@@1824078,poor-families,tz,Camfed would like to see this trend reversed ....,4
4,@@1921089,refugee,tz,Kagunga village was reported to lack necessary...,0


## Limpieza del corpus

- Eliminar signos de puntuación, de interrogación, admiración y elementos no léxicos y en general elementos ruidosos

--- 

**Valores nulos**

Comenzamos observando un panorama general del dataset para encontrar posibles valores nulos

In [3]:
df[df.isna().any(axis=1)]

Unnamed: 0,doc_id,keyword,country-code,paragraph,label
5744,@@16852855,migrant,ke,,0


Viendo que el dataset cuenta con un párrafo nulo, lo podemos eliminar dado que no contamos con acceso a ese párrafo

In [4]:
df = df.dropna()
df[df.isna().any(axis=1)]

Unnamed: 0,doc_id,keyword,country-code,paragraph,label


**Construcción del corpus**

Una vez que eliminamos valores nulos, podemos pasar a la construcción del corpus. En una etapa inicial, el corpus será un dataframe de Pandas en donde cada elemento corresponderá con un párrafo del dataset original

In [5]:
def build_corpus(df):
    corpus = []
    for _, row in df.iterrows():
        p = row["paragraph"]
        corpus.append(p)
    return pd.DataFrame({'paragraph': corpus})

In [6]:
corpus_df = build_corpus(df)
print("Number of documents:", "{:,}".format(corpus_df.shape[0]))
corpus_df.head()

Number of documents: 10,059


Unnamed: 0,paragraph
0,The ones in need of constant medical care are ...
1,NBC and Spanish-language Univision both declin...
2,A second T-Home project is being launched in t...
3,Camfed would like to see this trend reversed ....
4,Kagunga village was reported to lack necessary...


**Conteo de tokens**

Verificamos la cantidad de tokens presentes en el corpus

In [7]:
def count_tokens(corpus):
    """
    corpus: Pandas DataFrame
    """
    token_count = 0
    for _, row in corpus.iterrows():
        tokens = row["paragraph"].split(' ')
        token_count += len(tokens)
    return token_count

In [8]:
token_count = count_tokens(corpus_df)
print("Number of tokens:", "{:,}".format(token_count))

Number of tokens: 513,753


**Limpieza de un documento ejemplo**

- Eliminación de espacios en blanco
- Eliminación de caracteres especiales
- Eliminación de stopwords

In [9]:
def clean_whitespaces(doc):
    new_doc = doc.strip()
    return re.sub("\s+", " ", new_doc)

def clean_punctuation(doc):
    new_doc = doc.replace('-', ' ')
    new_doc = doc.replace('/', ' ')
    new_doc = "".join([w for w in new_doc if w not in string.punctuation])
    return clean_whitespaces(new_doc)

stop_words = set(stopwords.words('english'))
stop_words.remove('no')
def clean_stopwords(doc):
    doc = doc.lower().split(' ')
    new_p = [w for w in doc if w not in stop_words]
    new_doc = " ".join(new_p)
    return clean_whitespaces(new_doc)

def clean_document(doc):
    new_doc = clean_punctuation(doc)
    new_doc = clean_stopwords(new_doc)
    return new_doc

In [10]:
# Elección de un documento
doc = corpus_df.iloc[30, 0]
print(f"Document of choice:\n-------------------\n{doc}\n")

# Documento limpio
new_doc = clean_document(doc)
print(f"Clean document:\n-----------------\n{new_doc}")

Document of choice:
-------------------
Being part of a wider movement on protecting the human rights of vulnerable people and advocating for more effective responses from governments and other regulatory agencies

Clean document:
-----------------
part wider movement protecting human rights vulnerable people advocating effective responses governments regulatory agencies


**Limpieza de todo el corpus**

In [15]:
clean_docs = []
for idx, row in corpus_df.iterrows():
    p = row['paragraph']
    #print(f"Current doc[{idx}]:\n---------------\n{p}\n")
    clean_doc = clean_document(p)
    #print(f"Cleaned doc:\n------------\n{clean_doc}\n\n")
    clean_docs.append(clean_doc)

clean_corpus_df = pd.DataFrame({'paragraph': clean_docs})
clean_corpus_df.head()

Unnamed: 0,paragraph
0,ones need constant medical care kept admitted ...
1,nbc spanishlanguage univision declined air sho...
2,second thome project launched third quarter on...
3,camfed would like see trend reversed would lik...
4,kagunga village reported lack necessary social...


## Algoritmo BPE

- Aplicar el algoritmo BPE al corpus para obtener subpalabras:
    - Formar un vocabulario inicial: cada palabra se asocia a la cadena de subpalabras
    - Seleccionar el número de iteraciones que mejor se adapte al corpus elegido
    - Obtener el vocabulario final: cada palabra se asocia a la cadena de subpalabras
    - Sustituir en el corpus las palabras por la tokenización en subpalabras obtenidas