# Laboratorio de Introducción al Procesamiento de Lenguaje Natural

### Contexto

El objetivo de este laboratorio es introducirlos a la construcción de clasificadores, probando y comparando diferentes métodos.

### Entrega
Lo que deberán entregar es un archivo *.ipynb* con su solución, que incluya código, discusiones y conclusiones del trabajo. 

⚠️ Es importante que en el archivo a entregar estén **las salidas de cada celda ya ejecutadas** ⚠️. 

En caso de hacer el ejercicio 3, opcional, deberán entregar también un archivo .csv **correctamente formateado** con las predicciones de sus modelos.

El plazo máximo es el **21 de octubre a las 23:59 horas.**

### Plataforma sugerida
Sugerimos que utilicen la plataforma [Google colab](https://colab.research.google.com/), que permite trabajar colaborativamente con un *notebook* de python. Al finalizar pueden descargar ese *notebook* en un archivo .ipynb, incluyendo las salidas ya ejecutadas, con la opción ```File -> Download -> Download .ipynb```

### Instalación de bibliotecas
Antes de empezar, ejecuten esta celda para instalar las dependencias 👇

In [None]:
!pip install sklearn
!pip install gensim
!pip install spacy
!pip install nltk

#Ejercicio 1 - Primer contacto con el corpus

Lo primero a hacer es cargar el corpus. Hay muchas formas de hacerlo ([por ejemplo con Pandas](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)), pero la más sencilla es utilizando funcionalidades nativas de python. El resultado será una lista de n-uplas, donde cada una de ellas se correpondes a una fila del .csv (incluso el cabezal, la primera línea).

🧐**¿Qué tienen que hacer?**🤔 
Carguen a Colab los archivos necesarios del corpus usando el panel de la izquierda y luego ejecuten las siguientes celdas. Ajusten lo necesario para cargar todo el conjunto de *train* (`train_1.csv` y `train_2.csv`), el de dev y también sus anotaciones, que van a ser un subconjunto del archivo `train_1.csv`.

In [None]:
import csv

"""
  Completen con su código de carga de archivos "train" y "dev" acá
"""

with open('train_2.csv', newline='') as corpus_csv:
  reader = csv.reader(corpus_csv)
  next(reader) # Saltea el cabezal del archivo
  train_set = [x for x in reader]

with open('dev.csv', newline='') as corpus_csv:
  reader = csv.reader(corpus_csv)
  next(reader) # Saltea el cabezal del archivo
  dev_set = [x for x in reader]

Imprimamos algún tweet aleatorio a ver si se cargó bien.

In [None]:
import random

# Elegir un tweet aleatorio e imprimirlo junto a su categoría
random_tweet = random.choice(dev_set)
print(f"El tweet es: {random_tweet[1]}")
print(f"y su categoría: {random_tweet[2]}")

## Parte 1.1 - Composición de los conjuntos de entrenamiento y desarrollo

Para ver cómo esta compuesto el corpus, van a hacer una recorrida sobre todos los tweets en él y contar cuántos ejemplos hay de cada categoría. Examinen, discutan y comparen la cantidad de ejemplos en cada categoría, en *train* y en *dev* ¿hay más ejemplos de unas categorías que de otras? ¿tienen la misma proporción en *train* y *dev*?

🧐**¿Qué tienen que hacer?**🤔 Recorran los conjuntos, saquen conclusiones y escríbanlas en una celda de texto, a continuación.

In [None]:
"""
  Completen con su código acá
"""

## Parte 1.2 - Cálculo del acuerdo entre anotadores

A continuación queremos ver cuán de acuerdo estuvieron grupalmente con las anotaciones originales. Para eso deberán usar [esta función disponible en sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.cohen_kappa_score.html#sklearn.metrics.cohen_kappa_score).

🧐**¿Qué tienen que hacer?**🤔  Calculen el grado de acuerdo entre las antoaciones originales y las suyas como grupo. 

In [None]:
"""
  Completen con su código acá
"""

# Ejercicio 2 - Experimentos con clasificadores

Ahora que cargaron y examinaron los datos, van a crear un primer clasificador para resolver el problema automáticamente. Como los clasificadores asumen que sus atributos son numéricos, hay que encontrar primero una forma numérica de representar los textos. En este ejercicio van a experimentar con varias formas de hacer eso.

En todas las partes podrán usar cualquiera de los clasificadores disponibles en el catálogo de modelos de [aprendizaje supervisado de sklearn](https://scikit-learn.org/stable/supervised_learning.html).  

##Parte 2.1 - Bag of Words

El primer experimento es utilizando Bag of Words (BoW) para representar los textos. Acá les dejamos un ejemplo, pero prueben con las diferentes configuraciones que admite [CountVectorizer de sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html) y con los modelos que quieran del [catálogo de sklearn](https://scikit-learn.org/stable/supervised_learning.html). También pueden explorar diferentes formas de limpieza de los textos. 

Midan el aprendizaje sobre *dev* con la métrica [$F_1$, con la implementación de sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html). También pueden usar otras métricas adicionales; queda a su disposición.

🧐**¿Qué tienen que hacer?**🤔 Hagan varios experimentos con diferentes tipos de clasificadores y diferentes configuraciones de BoW para vectorizar. Midan el aprendizajen con $F_1$. Discutan, reflexionen y escriban las conclusiones en una celda de texto a continuación.

In [None]:
"""
  Completen con su código acá
"""

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import f1_score

bow_vectorizer = CountVectorizer() # Vectorizador "bag of words"
clf = MultinomialNB() # El clasificador es un Naive Bayes. Prueben acá con varios modelos

training_features = bow_vectorizer.fit_transform([x[1] for x in train_set]) # Se vectorizan los tweets de train
clf.fit(training_features, [x[2] for x in train_set]) # Se entrena el clasificador usando los tweets vectorizados

dev_features = bow_vectorizer.transform([x[1] for x in dev_set]) # Se vectorizan los tweets de dev
prediction = clf.predict(dev_features) # Se predicen las categorías de cada tweet (ya vectorizado en la línea anterior)

print("F-Score: " + str(round(f1_score([x[2] for x in dev_set], prediction, average='macro')*100, 2))) # Se imprime la medida F



## Parte 2.2 - TF-iDF

El segundo es utilizando TF-iDF (Term Frequency - inverse Document Frequency) para representar los textos.

🧐**¿Qué tienen que hacer?**🤔 Lo análogo a la parte anterior pero probando diferentes configuraciones con [TF-iDF de sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html). Comparen los resultados de $F_1$ con los obtenidos para Bag of Words y escriban las conclusiones en una celda de texto a continuación.

In [None]:
"""
  Completen con su código acá
"""

## Parte 2.3 - Word embeddings

El tercer y último enfoque es utilizando **vectores de palabras estáticos** para representar los textos. Hay muchísimas colecciones de vectores de palabras, pero en esta ocasión vamos a usar unos entrenados por la Univerisdad de Chile. 

Una idea simple pero útil para representar un tweet puede ser hallar el centroide de los vectores relacionados a las palabras que aparecen en él, y luego comparar cuál es más similar a cuál. 

🧐**¿Qué tienen que hacer?**🤔 Lo análogo a las partes anteriores pero probando con una representación basada en *embeddings*. Comparen con $F_1$, saquen conclusiones y escríbanlas.


Les dejamos el siguiente código de ejemplo. Permite cargar los vectores, hallar el centroide de una lista de tokens y calcular las similitudes entre diferentes centroides.

In [None]:
from numpy.linalg import norm
from gensim.models import KeyedVectors
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# Se descargan los vectores
!wget -q http://dcc.uchile.cl/~jperez/word-embeddings/fasttext-sbwc.100k.vec.gz
!gzip -d -q fasttext-sbwc.100k.vec.gz
!ls

# Se crea el objeto
vectors = KeyedVectors.load_word2vec_format('fasttext-sbwc.100k.vec')

# Unos ejemplos, ya tokenizados
example_1 = ["Qué", "tremendo", "día", "hace"]
example_2 = ["Qué", "lindo", "día", "hace"]
example_3 = ["Hace", "un", "precioso", "día"]
example_4 = ["Hoy", "está", "lindo", "el", "día"]
example_5 = ["Pah", "esta", "milanesa", "con", "mayonesa", "está", "buenísima"]
example_6 = ["Ya", "le", "dije", "que", "le", "vas", "a", "escribir"]

# Se calculan los centroides
centroid_example_1 = np.mean([vectors[word.lower()] for word in example_1], axis=0)
centroid_example_2 = np.mean([vectors[word.lower()] for word in example_2], axis=0)
centroid_example_3 = np.mean([vectors[word.lower()] for word in example_3], axis=0)
centroid_example_4 = np.mean([vectors[word.lower()] for word in example_4], axis=0)
centroid_example_5 = np.mean([vectors[word.lower()] for word in example_5], axis=0)
centroid_example_6 = np.mean([vectors[word.lower()] for word in example_6], axis=0)

# Se imprime la similitud entre los centroides del ejemplo 1 y el resto. 
print(cosine_similarity([centroid_example_1],[centroid_example_1]))
print(cosine_similarity([centroid_example_1],[centroid_example_2]))
print(cosine_similarity([centroid_example_1],[centroid_example_3]))
print(cosine_similarity([centroid_example_1],[centroid_example_4]))
print(cosine_similarity([centroid_example_1],[centroid_example_5]))
print(cosine_similarity([centroid_example_1],[centroid_example_6]))



In [None]:
"""
  Completen con su código acá
"""

# Ejercicio 3 (opcional)

Esta última parte es **opcional**. Ahora que vieron cómo crear clasificadores, invitamos a que intenten construir el mejor clasificador posible utilizando estos enfoques o cualquier otro. Pueden probar lo que quieran, desde enfoques por reglas, utilizando POS-tagging, análisis sintáctico, análisis morfológico o listas de palabras, a modelos neuronales como BERT.

Si realizan esta parte opcional, tendrán que entregar en EVA las predicciones para un archivo de *test* que subiremos próximo a la entrega. Los grupos que obtengan las 3 mejores medidas al evaluar en el conjunto de test ganarán 5 puntos porcentuales que sumarán para la nota final del curso.

🧐**¿Qué tienen que hacer?**🤔 Construir el mejor clasificador posible y subir a EVA las predicciones para *test*.

In [None]:
"""
  Completen con su código acá
"""