# Tarea 1

### Cuerpo Docente

- Profesores: [Andrés Abeliuk](https://aabeliuk.github.io/), [Felipe Villena](https://fabianvillena.cl/).
- Profesor Auxiliar: [Gabriel Iturra](https://giturra.cl/)

### Instrucciones generales

- Grupos de máximo 4 personas.
- Ausentes deberán realizar la actividad solos.
- Esta prohibido compartir las respuestas con otros grupos.
- Indicios de copia serán penalizados con la nota mínima.
- Cualquier duda fuera del horario de clases al foro. Mensajes al equipo docente serán respondidos por este medio.
- Pueden usar cualquier material del curso que estimen conveniente, si utiliza material extra debe citarlo.


### Integrantes

> POR FAVOR AGREGAR TODOS LOS NOMBRES DE LOS INTEGRANTES

## Contexto

El discurso de odio es cualquier expresión que promueva o incite a la discriminación, la hostilidad o la violencia hacia una persona o grupo de personas en una relación asimétrica de poder, tal como la raza, la etnia, el género, la orientación sexual, la religión, la nacionalidad, una discapacidad u otra característica similar.

En cambio, la incivilidad se refiere a cualquier comportamiento o actitud que rompe las normas de respeto, cortesía y consideración en la interacción entre personas. Esta puede manifestarse de diversas formas, tal como insultos, ataques personales, sarcasmo, desprecio, entre otras.

En esta tarea tendrán a su disposición un dataset de textos con las etiquetas `odio`, `incivilidad` o `normal`. La mayor parte de los datos se encuentra en español de Chile. Con estos datos, deberán entrenar un modelo que sea capaz de predecir la etiqueta de un texto dado.

El corpus para esta tarea se compone de 3 datasets:  
- [Multilingual Resources for Offensive Language Detection de Arango et al. (2022)](https://aclanthology.org/2022.woah-1.pdf#page=136)
- [Dataton UTFSM No To Hate (2022)](http://dataton.inf.utfsm.cl/)
- Datos generados usando la [API de GPT3 (modelo DaVinci 03)](https://platform.openai.com/docs/models/gpt-3).

Agradecimientos a los autores por compartir los datos y a David Miranda, Fabián Diaz, Santiago Maass y Jorge Ortiz por revisar y reetiquetar los datos en el contexto del curso "Taller de Desarrollo de Proyectos de IA" (CC6409), Departamento de Ciencias de la Computación, Universidad de Chile. 

Los datos solo pueden ser usados con fines de investigación y docencia. Está prohibida la difusión externa.


# Para el siguiente informe deben:




Para la siguente tarea deberá revolver una tarea de multi-clasificación, realizando los siguentes pasos:

- Realizar un análisis estadístico del corpus.
- Crear tres tipos de text representation.
- Desarrollar al menos tres tipos de clasificadores que resuelvan la tarea.
- Análizar sus resultados.

Sin embargo, primero cargaremos el datataset.

### Cargar dataset

En esta sección, cargaremos el dataset desde el repositorio del módulo. Para ello ejecute las siguientes líneas:

In [1]:
import pandas as pd

In [8]:
# Dataset de entrenamiento.
train_df = pd.read_csv("https://raw.githubusercontent.com/dccuchile/CC6205/master/assignments/new/assignment_1/train/train.tsv", sep="\t")

# Dataset que deberán predecir para la competencia.
test_df = pd.read_csv("https://raw.githubusercontent.com/dccuchile/CC6205/master/assignments/new/assignment_1/target/target.tsv", sep="\t")

### Analizar los datos

En esta sección analizaremos el balance de los datos. Para ello se imprime la cantidad de tweets de cada dataset agrupados por la intensidad de sentimiento.

In [12]:
train_df.sample(5)

Unnamed: 0,id,texto,clase
9466,13085,La recalcada putísima de mierda y la concha de...,odio
5578,7613,@user @user No es que los gaymers chilenos sea...,normal
2204,11375,@user Dios bendiga a #Colombia y autoridades @...,normal
9202,15259,Cuando me enteré de que Shakira estaba saliend...,normal
3271,10230,@user claro si los q la sacaron fueron los per...,normal


In [9]:
train_df["clase"].value_counts()

incivilidad    5424
normal         4280
odio           2510
Name: clase, dtype: int64

### Instalar librerias

Debe instalar las siguientes librerías:

In [13]:
%%capture

!pip install wordcloud

Si lo desea, puede instalar más librería que requiera, pero debe citar su fuente.

### Importar librerías

En esta sección, importamos la liberías necesarias para el correcto desarrollo de esta tarea. Puede utilizar otras librerías que no se en encuentran aquí, pero debe citar su fuente.

In [17]:
import nltk
from nltk import FreqDist
from nltk.text import Text

from nltk import word_tokenize

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.base import BaseEstimator, TransformerMixin

# importe aquí sus clasificadores

import matplotlib.pyplot as plt
from wordcloud import WordCloud

# word2vec
from gensim.models import Word2Vec, KeyedVectors
from gensim.models.phrases import Phrases, Phraser


### Análisis estadístico

Para entender como esta compuesto el corpus de texto, y los principales conceptos que aborda, haremos un análisis estadístico de sus principales componentes, para esto se le pide:

#### 1. Tokenizador

Como vimos en clases pasadas, el como separar los principales token de una oración no siempre es una tarea fácil. Por lo que para separar los principales token del texto asociado a cada sentimiento se pide que defina un tokenizador, que entregue una lista de los principales tokens. Su tokenizador debe contener al menos tres expresiones regulares, que usted estime conveniente para hacer la separación de los token dentro de la oración, para ello complete le siguiente función:

In [37]:
def tokenizador(oracion):
    pass

En el siguiente ejemplo, se muestra un comportamiento esperado de su tokenizador, usando como ejemplo el `word_tokenize` de la librería `nltk`

In [45]:
# Ejemplo

oracion = train_df['texto'].sample(1).values[0]
word_tokenize(oracion)

['Soy',
 'el',
 'único',
 'que',
 'se',
 'ha',
 'dado',
 'cuenta',
 'que',
 'con',
 'la',
 'llegada',
 'de',
 'extranjeros',
 'a',
 'Chile',
 ',',
 'los',
 'asesinatos',
 'aumentaron',
 'en',
 'numero',
 'y',
 'en',
 'nivel',
 'de',
 'violencia',
 '.',
 'Ya',
 'cacharon',
 'que',
 'aquí',
 'esta',
 'el',
 '🧀']

Ahora pruebe su tokenizador.

In [None]:
oracion = train_df['texto'].sample(1).values[0]
tokenizador(oracion)

Ahora responda, su tokenizador funciona igual que el provisto por la librería, y si es así explique porque, en caso contrario, indique las causa de porque no.

**Respuesta:**

#### 2) Crear una lista de tokens.

Dado que nos interesa entender cuales son los token que más impacto tienen dentro del corpus de texto provisto, debemos extraerlos del conjunto de entrenamiento. Para esto, guarde en la lista TODOS los token del conjunto de entrenamiento en la lista `tokens`, para separar los tokens de la oraciones utilice su tokenizador.

In [28]:
tokens = []

# Código (recuerde utilizar su tokenizador)

Para asegurarse que guardo correctamente las palabras, extraiga los primeros 10 tokens de la lista, y revise el largo de la lista. Ejecutando la siguiente línea de código, ojo que el largo de la lista `tokens` debe ser cercano o mayor 300000.

In [None]:
print(len(tokens))
print(tokens[:11])

#### 3) Análisis estadísticos los tokens.

Para realizar nuestro análisis utilizaremos las primeras técnicas en el curso:

- a) Cree un gráfico de dispersión lexica (ver tutorial 2) sobre al menos 10 token escogidos al azar de la lista `tokens`, podría serle útil usar el módulo `random` de `Python`. Luego, repita el mismo gráfico con al menos 10 `tokens` que usted considere interesante dentro del contexto del dataset. ¿Puede observar algún tipo de relación entre los tokens escogidos por usted, y los escogidos azar? Explique.

In [47]:
# Grafico de tokens escogidos al azar

In [48]:
# Grafico de tokens escogidos por usted.

- b) Para estudiar los tokens más frequentes dentro del corpus, cree dos gráfico de frecuencias (ver tutorial 2), uno con todos los tokens de la lista, y otro eliminandos las stopwords. ¿Qué puede decir sobre estos gráficos?, ¿Existe alguna diferencia al mantener las stopwords vs a quitarlas de los tokens? 

In [None]:
# Grafico 1

In [49]:
# Grafico 2

- c) Dado que siempre es importante, identificar los principales tokens mencionados en un corpus de texto, cree dos wordclouds (ver tutorial 2) sobre los tokens que obtuvo en la parte anterior, uno con stopwords y otro sin ellas. ¿Qué puede decir sobre estos gráficos?, ¿Existe alguna diferencia al mantener las stopwords vs a quitarlas de los tokens?, considerando la parte a) existe alguna diferencia versus las palabras que usted pensó que era más interesantes?, que puede decir al respecto? 

In [None]:
# Grafico 1

In [50]:
# Grafico 2

## Crear representaciones de texto

Como hemos mencionado en las clases anteriores, los modelos de Machine Learning no son capaces de entender el texto directamente para resolver cualquier tarea. Es vital realizar un paso intermedio, que es buscar un mecanismo que permita traducir el texto a representaciones que puedan ser entendidas por los modelos de ML, y que conserven las propiedades semánticas y sintacticas del lenguaje. Es por esto, que en está sección estudiaremos los métodos de text representation estudiados.

- a) El primer método que se les solicita, es crear una representación de Bag of Words utilizando la librería `scikit-learn`. Para esto, puede serle útil revisar el tutorial tres. 

- b) El segundo método que se les solicita, es crear una representación de TF-IDF utilizando la librería `scikit-learn`. Para esto, puede serle útil revisar el tutorial tres. 

- c) El tercer método que se les solicita, es crear una representación basada en Word Embeddings utilizando la librería `gensim`. Para esto, puede serle útil revisar el tutorial cuatro.  

- d) Dado que los primeros dos métodos, BOW y TF-IDF, son métodos que codifican el texto a nivel de oración, para el caso de los Word Embeddings, la codificación se realizar a nivel de token, por lo que es necesario desarrollar un método para codificar las oraciones usando los Word Embeddings de la parte anterior. Para esto, se le pide implementar una clase `Doc2Vec`, que utilice los Word Embeddings y una función de agregación (suma, promedio, máximo o mínimos) para definir la codificación a nivel de oracion. Se le recomienda revisar el tutorial 4 para insipirarse.

In [2]:
class Doc2VecTransformer(BaseEstimator, TransformerMixin):
    """ Transforma tweets a representaciones vectoriales usando algún modelo de Word Embeddings.
    """

    def __init__(self, model, aggregation_func):
        # Implementar
        pass

    def fit(self, X, y=None):
        return self

    def transform(self, X, y=None):

        # Implementar
        pass

## Definir clasificadores

En esta parte, se procedera a entrenar, los clasificadores por cada representación de texto, creada en la parte anterior, para esto usted debe:

Se sugiere revisar el tutorial 4, para recordar como utilizar los clasificadores de `scikit-learn`.

1. Definir los datos y las etiquetas de entrenamiento y testeo:

In [None]:
X_train = ...
y_train = ...

X_test = ...
y_test = ...

Una pregunta, que podría hacerse: ¿Es necesario separar el dataset en training y testing, usando alguna función de `scikit-learn` en este caso? Fundamente:



2. Definir al menos dos clasificadores por representación:

#### Bag of Bow

In [None]:
clf1 = ...




In [None]:
clf2 = ...

#### TF-IDF

In [None]:
clf3 = ...

In [None]:
clf4 = ...

#### Word Embeddings

In [None]:
clf5 = ...

In [None]:
clf6 = ...

Para esta sección pueden utilizar cualquier clasificadores que estimen conveniente.

3. Entrenar cada uno de los clasificadores desarrollados.

In [None]:
# Entrenamiento classificador 1

In [3]:
# Entrenamiento classificador 2

In [None]:
# Entrenamiento classificador 3

In [None]:
# Entrenamiento classificador 4

In [None]:
# Entrenamiento classificador 5

In [None]:
# Entrenamiento classificador 6

### Evaluar los clasificadores.

En esta sección, se espera que entregue la matriz de confusión y el reporte de clasificación de los clasificadores en la sección pasada. Por lo que seria útil estudiar las funciones `confusion_matrix` y `classification_report` de `scikit-lear`. Podrá encontrar un ejemplo en el tutorial 4.

In [None]:
# Informe de evaluación clasificador 1

In [None]:
# Informe de evaluación clasificador 2

In [None]:
# Informe de evaluación clasificador 3 

In [None]:
# Informe de evaluación clasificador 4

In [None]:
# Informe de evaluación clasificador 5

In [None]:
# Informe de evaluación clasificador 6

Finalmente, ¿Qué pude decir del rendimiento de todos los clasificadores?, ¿Cree que alguna representación pudo resolver mejor la tarea? Jusfique, se espera que de un análsis para cada uno de los 6 clasificadores, identificado sus aciertos y fallas.