## Objetivo e Instrucciones:

### Objetivo

Esta tarea consiste en participar en una competencia cuyo objetivo es la clasificación de tweets según su intensidad de emoción. Específicamente: 

Tendrán 4 datasets de tweets de distintas emociones: `anger`, `fear`, `sadness` y `joy`. Para cada uno de estos datasets, deberán crear un clasificador que indique la intensidad de dicha emoción en sus tweets (`low`, `medium`, `high`).

# Tarea 1 NLP : Competencia de Clasificación de Texto
-------------------------------


- **Nombre:** Aymé Arango y Jesús Pérez

- **Usuario o nombre de equipo en Codalab:** Qvanos




###  Fecha de Entrega: 

Por ser anunciada una vez termine el paro. Se publicará la fecha en ucursos.

### Detalles e instrucciones de la competencia:

- La competencia consiste en resolver 4 problemas de clasificación distintos, cada uno de tres clases. Por cada problema deberán crear un clasificador distinto. La evaluación de la competencia se realiza en base a 4 métricas: AUC, Kappa y Accuracy. Los mejores puntajes en cada ítem serán los que ganen.

- Para comenzar se les entregará en este notebook el baseline y la estructura del reporte. El baseline es el código que realiza creación de features y clasificación básica. Los puntajes de este serán ocupados como base para la competencia: deben superar sus resultados para ser bien evaluados.  

- Para participar, deben registrarse en Codalab y luego ingresar a la competencia usando el siguiente [link]( https://competitions.codalab.org/competitions/24121?secret_key=f5eb2d95-b36e-4aad-8fc5-4d9d77f4e4dc). 

- **Es requisito entregar el reporte con el código y haber participado en la competencia para ser evaluado.**

- Pueden hacer grupos de máximo 2 alumnos. Cada grupo debe tener un nombre de equipo (En codalab, ir a settings y después cambiar Team Name). Solo una persona debe administrar la cuenta del grupo.

- En total pueden hacer un **máximo de 4 envíos/submissions** (tanto para equipos como para envíos indivuales).

- Hagan varios experimentos haciendo cross-validation o evaluación sobre una sub-partición antes de enviar sus predicciones a Codalab. Asegúrense que la distribución de las clases sea balanceada en las particiones de training y testing. Verificar que el formato de la submission coincida con el de la competencia. De lo contrario, se les será evaluado incorrectamente.

- Estar top 5 en alguna métrica equivale a 1 punto extra en la nota final.

- No se limiten a los contenidos vistos ni a scikit ni a este baseline. ¡Usen todo su conocimiento e ingenio en mejorar sus sistemas! 

- Todas las dudas escríbanlas en el hilo de U-cursos de la tarea. Los emails que lleguen al equipo docente serán remitidos a ese medio.


### Reporte

Este debe cumplir la siguiente estructura:

1.	**Introducción**: Presentar brevemente el problema a resolver, los métodos y representaciones utilizadas en el desarrollo de la tarea y conclusiones obtenidas. (0.5 Puntos)
2.	**Representaciones**: Describir los atributos y representaciones usadas como entrada de los clasificadores. Si bien, con Bag of Words (baseline) ya se comienzan a percibir buenos resultados, pueden mejorar su evaluación agregando más atributos y representaciones diseñadas a mano. Mas abajo encontrarán una lista útil de estos que les podrá ser de utilidad. (1.5 puntos)
3.	**Algoritmos**: Describir brevemente los algoritmos de clasificación usados. (0.5 puntos)
4.	**Métricas de evaluación**: Describir brevemente las métricas utilizadas en la evaluación indicando que miden y su interpretación. (0.5 puntos)
5.	**Experimentos**: Reportar todos sus experimentos. Comparar los resultados obtenidos utilizando diferentes algoritmos y representaciones. Estos experimentos los hacen sobre la sub-partición de evaluación que deben crear (o pueden usar cross-validation). Incluyan todo el código de sus experimentos aquí. ¡Es vital haber realizado varios experimentos para sacar una buena nota! (2 puntos)
6.	**Conclusiones**: Discutir resultados, proponer trabajo futuro. (1 punto)

### Baseline

Por último, el baseline contiene un código básico que:

- Obtiene los dataset.
- Divide los datasets en train (entrenamiento y prueba) y target set (el que clasificar para subir a la competencia).
- Crea un Pipeline que: 
    - Crea features personalizadas.
    - Transforma los dataset a bag of words (BoW).  
    - Entrena un clasificador usando cada train set.
- Clasifica y evalua el sistema creado usando el test set.
- Clasifica el target set.
- Genera una submission con el target en formato zip en el directorio en donde se está ejecutando el notebook. 


Algunas pistas sobre como mejorar el rendimiento de los sistemas que creen. (Esto tendrá mas sentido cuando vean el código)

- **Vectorizador**: investigar los modulos de `nltk`, en particular, `TweetTokenizer`, `mark_negation` para reemplazar los tokenizadores. También, el parámetro `ngram_range` (Ojo que el clf naive bayes no debería usarse con n-gramas, ya que rompe el supuesto de independencia). Además, implementar los atributos que crean útiles desde el listado del el enunciado. Investigar también el vectorizador tf-idf.

- **Clasificador**: investigar otros clasificadores mas efectivos que naive bayes. Estos deben poder retornar la probabilidad de pertenecia de las clases (ie: implementar la función `predict_proba`).

- **Features**: Recuerden que pueden implementar todas las features que se les ocurra! Aquí les adjuntamos algunos ejemplos:
    -	Word n-grams.
    -	Character n-grams. 
    -	Part-of-speech tags.
    -	Sentiment Lexicons (Lexicon = A set of words with a label or associated value.).
        - Count the number of positive and negative words within a sentence.
        - If the lexicon has associated intensity of feeling (for example in a decimal), then take the average of the intensity of the sentence according to the feeling, the sum, etc.
        -	A good lexicon of sentiment: [Bing Liu](http://www.cs.uic.edu/~liub/FBS/opinion-lexicon-English.rar) 
        - A reference with a lot of [sentiment lexicons](https://medium.com/@datamonsters/sentiment-analysis-tools-overview-part-1-positive-and-negative-words-databases-ae35431a470c). 
    -	The number of elongated words (words with one character repeated more than two times).
    -	The number of words with all characters in uppercase.
    -	The presence and the number of positive or negative emoticons.
    -	The number of individual negations.
    -	The number of contiguous sequences of dots, question marks and exclamation marks.
    -	Word Embeddings: Here are some good ideas on how to use them.
    https://stats.stackexchange.com/questions/221715/apply-word-embeddings-to-entire-document-to-get-a-feature-vector

- **Reducción de dimensionalidad**: También puede serles de ayuda. Referencias [aquí](https://scikit-learn.org/stable/modules/unsupervised_reduction.html).

- Por último, pueden encontrar mas referencias de cómo mejorar sus features, el vectorizador y el clasificador [aquí](https://affectivetweets.cms.waikato.ac.nz/benchmark/).

(Pueden eliminar cualquier celda con instrucciones...)

**Importante**: Recuerden poner su nombre y el de su usuario o de equipo (en caso de que aplique) tanto en el reporte. NO serán evaluados Notebooks sin nombre.

----------------------------------------

## 1. Introducción

...

## 2. Representaciones

...

## 3. Algoritmos

...

## 4. Métricas de Evaluación

- AUC: ...
- Kappa: ...
- Accuracy: ...


## 5. Experimentos

...

### Importar librerías y utiles

In [0]:
import sys
import os
import shutil

import pandas as pd
import numpy as np

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.metrics import confusion_matrix, cohen_kappa_score, classification_report, accuracy_score, roc_auc_score
from sklearn.model_selection import train_test_split
from sklearn.base import BaseEstimator, ClassifierMixin, TransformerMixin

In [0]:
if not os.path.exists('/content/emotion_intensity_classification'):
  !git clone https://github.com/jssprz/emotion-intensity-classification.git
  !mv emotion-intensity-classification emotion_intensity_classification

In [0]:
from importlib.machinery import SourceFileLoader

PROJECT_PATH = '/content/emotion_intensity_classification'
AngerTweetClassifier = SourceFileLoader('anger', os.path.join(PROJECT_PATH, 'models/anger.py')).load_module().AngerTweetClassifier
FearTweetClassifier = SourceFileLoader('fear', os.path.join(PROJECT_PATH, 'models/fear.py')).load_module().FearTweetClassifier
JoyTweetClassifier = SourceFileLoader('joy', os.path.join(PROJECT_PATH, 'models/joy.py')).load_module().JoyTweetClassifier
SadnessTweetClassifier = SourceFileLoader('sadness', os.path.join(PROJECT_PATH, 'models/sadness.py')).load_module().SadnessTweetClassifier

# sys.path.append('/content/emotion_intensity_classification/models')
# from anger import AngerTweetClassifier
# from fear import FearTweetClassifier
# from joy import JoyTweetClassifier
# from sadness import SadnessTweetClassifier

In [60]:
AngerTweetClassifier().__dict__

{'classifier': MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True),
 'demo_param': 'demo'}

### Definir métodos de evaluación

Estas funciones están a cargo de evaluar los resultados de la tarea. No deberían cambiarlas.


In [0]:
def auc_score(test_set, predicted_set):
    high_predicted = np.array([prediction[2] for prediction in predicted_set])
    medium_predicted = np.array(
        [prediction[1] for prediction in predicted_set])
    low_predicted = np.array([prediction[0] for prediction in predicted_set])
    high_test = np.where(test_set == 'high', 1.0, 0.0)
    medium_test = np.where(test_set == 'medium', 1.0, 0.0)
    low_test = np.where(test_set == 'low', 1.0, 0.0)
    auc_high = roc_auc_score(high_test, high_predicted)
    auc_med = roc_auc_score(medium_test, medium_predicted)
    auc_low = roc_auc_score(low_test, low_predicted)
    auc_w = (low_test.sum() * auc_low + medium_test.sum() * auc_med +
             high_test.sum() * auc_high) / (
                 low_test.sum() + medium_test.sum() + high_test.sum())
    return auc_w


def evaulate(predicted_probabilities, y_test, labels, dataset_name):
    # Importante: al transformar los arreglos de probabilidad a clases,
    # entregar el arreglo de clases aprendido por el clasificador.
    # (que comunmente, es distinto a ['low', 'medium', 'high'])
    predicted_labels = [
        labels[np.argmax(item)] for item in predicted_probabilities
    ]
    print('Confusion Matrix for {}:\n'.format(dataset_name))
    print(
        confusion_matrix(y_test,
                         predicted_labels,
                         labels=['low', 'medium', 'high']))

    print('\nClassification Report:\n')
    print(
        classification_report(y_test,
                              predicted_labels,
                              labels=['low', 'medium', 'high']))
    # Reorder predicted probabilities array.
    labels = labels.tolist()
    predicted_probabilities = predicted_probabilities[:, [
        labels.index('low'),
        labels.index('medium'),
        labels.index('high')
    ]]
    auc = round(auc_score(y_test, predicted_probabilities), 3)
    print("Scores:\n\nAUC: ", auc, end='\t')
    kappa = round(cohen_kappa_score(y_test, predicted_labels), 3)
    print("Kappa:", kappa, end='\t')
    accuracy = round(accuracy_score(y_test, predicted_labels), 3)
    print("Accuracy:", accuracy)
    print('------------------------------------------------------\n')
    return np.array([auc, kappa, accuracy])

### Datos

Obtener los datasets desde el github del curso

In [0]:
# Datasets de entrenamiento.
train = {
    'anger': pd.read_csv('https://raw.githubusercontent.com/dccuchile/CC6205/master/assignments/assignment_1/data/train/anger-train.txt', sep='\t', names=['id', 'tweet', 'class', 'sentiment_intensity']),
    'fear': pd.read_csv('https://raw.githubusercontent.com/dccuchile/CC6205/master/assignments/assignment_1/data/train/fear-train.txt', sep='\t', names=['id', 'tweet', 'class', 'sentiment_intensity']),
    'joy': pd.read_csv('https://raw.githubusercontent.com/dccuchile/CC6205/master/assignments/assignment_1/data/train/joy-train.txt', sep='\t', names=['id', 'tweet', 'class', 'sentiment_intensity']),
    'sadness': pd.read_csv('https://raw.githubusercontent.com/dccuchile/CC6205/master/assignments/assignment_1/data/train/sadness-train.txt', sep='\t', names=['id', 'tweet', 'class', 'sentiment_intensity'])
}
# Datasets que deberán predecir para la competencia.
target = {
    'anger': pd.read_csv('https://raw.githubusercontent.com/dccuchile/CC6205/master/assignments/assignment_1/data/target/anger-target.txt', sep='\t', names=['id', 'tweet', 'class', 'sentiment_intensity'], na_values=['NONE']),
    'fear': pd.read_csv('https://raw.githubusercontent.com/dccuchile/CC6205/master/assignments/assignment_1/data/target/fear-target.txt', sep='\t', names=['id', 'tweet', 'class', 'sentiment_intensity'], na_values=['NONE']),
    'joy': pd.read_csv('https://raw.githubusercontent.com/dccuchile/CC6205/master/assignments/assignment_1/data/target/joy-target.txt', sep='\t', names=['id', 'tweet', 'class', 'sentiment_intensity'], na_values=['NONE']),
    'sadness': pd.read_csv('https://raw.githubusercontent.com/dccuchile/CC6205/master/assignments/assignment_1/data/target/sadness-target.txt', sep='\t', names=['id', 'tweet', 'class', 'sentiment_intensity'], na_values=['NONE'])
}

In [63]:
# Ejemplo de algunas filas aleatorias:
train['anger'].sample(5)

Unnamed: 0,id,tweet,class,sentiment_intensity
166,10166,@SkyUK what a joke!! Cut our internet off earl...,anger,medium
381,10381,don't provoke me after letting me down !,anger,medium
481,10481,He totally knew about it'. Trump finally gets ...,anger,medium
257,10257,OOOOOOOOH MY GOD UUUUGGGGHHHHHHHHH #rage,anger,medium
32,10032,I blame the whole season on Natalie! The seaso...,anger,high


### Analizar los datos 

Imprimir la cantidad de tweets de cada dataset, según su intensidad de sentimiento. Noten que las clases están desbalanceadas. 

In [64]:
def get_group_dist(group_name, train):
    print(group_name, "\n",
          train[group_name].groupby('sentiment_intensity').count(),
          '\n---------------------------------------\n')
for dataset_name in train:
    get_group_dist(dataset_name, train)

anger 
                       id  tweet  class
sentiment_intensity                   
high                 163    163    163
low                  161    161    161
medium               617    617    617 
---------------------------------------

fear 
                       id  tweet  class
sentiment_intensity                   
high                 270    270    270
low                  288    288    288
medium               699    699    699 
---------------------------------------

joy 
                       id  tweet  class
sentiment_intensity                   
high                 195    195    195
low                  219    219    219
medium               488    488    488 
---------------------------------------

sadness 
                       id  tweet  class
sentiment_intensity                   
high                 197    197    197
low                  210    210    210
medium               453    453    453 
---------------------------------------



### Custom Features 

Para crear features personalizadas implementaremos nuestros propios Transformers (estandar de scikit para crear nuevas features entre otras cosas). Para esto:

1. Creamos nuestra clase Transformer extendiendo BaseEstimator y TransformerMixin. En este ejemplo, definiremos `CharsCountTransformer` que cuenta carácteres relevantes ('!', '?', '#') en los tweets.
2. Definios una función cómo `get_relevant_chars` que opera por cada tweet y retorna un arreglo.
3. Hacemos un override de la función `transform` en donde iteramos por cada tweet, llamamos a la función que hicimos antes y agregamos sus resultados a un arrelo. Finalmente lo retornamos.

Esto nos facilitará el trabajo mas adelante. Una Guia completa de las transformaciones predefinidas en scikit pueden encontrarla [aquí](https://scikit-learn.org/stable/data_transforms.html).



In [0]:
class CharsCountTransformer(BaseEstimator, TransformerMixin):
    def get_relevant_chars(self, tweet):
        num_hashtags = tweet.count('#')
        num_exclamations = tweet.count('!')
        num_interrogations = tweet.count('?')
        return [num_hashtags, num_exclamations, num_interrogations]

    def transform(self, X, y=None):
        chars = []
        for tweet in X:
            chars.append(self.get_relevant_chars(tweet))

        return np.array(chars)

    def fit(self, X, y=None):
        return self

In [66]:
# Veamos que sucede si ejecutamos el transformer
sample = train['anger'].sample(5).tweet
pd.DataFrame(zip(sample, CharsCountTransformer().transform(sample)))

Unnamed: 0,0,1
0,@RLH2606 if u know who died.. I would also bur...,"[0, 3, 0]"
1,I'm not used to pretty girls that use curse wo...,"[0, 0, 0]"
2,🔥Anger is the acid that can do more harm to th...,"[1, 0, 0]"
3,@danrafaelespn no Tyson fury beat the man who ...,"[0, 0, 0]"
4,Nahhhhhh @konanplaydirty snap story has got me...,"[0, 0, 0]"


### Definir la representación y el clasificador

Para esto, definiremos Pipelines. Un `Pipeline` es una lista de transformaciones y un estimador(clasificador) ubicado al final el cual define el flujo que seguiran nuestros datos dentro del sistema que creemos. Nos permite ejecutar facilmente el mismo proceso sobre todos los datasets que usemos, simplificando así nuestra programación.

El pipeline más básico que podemos hacer es transformar el dataset a Bag of Words y después usar clasificar el BoW usando NaiveBayes:

```python
    Pipeline([('bow', CountVectorizer()), ('clf', MultinomialNB())])
```


Ahora, si queremos usar nuestra transformación para agregar las features que creamos, usaremos `FeatureUnion`. Esta simplemente concatenará los vectores resultantes de ejecutar BoW y los Transformer en un solo vector.

```python
    Pipeline([('features',FeatureUnion([('bow', CountVectorizer()),
                                        ('chars_count',CharsCountTransformer())])),
              ('clf', MultinomialNB())])

```





Recuerden que cada pipeline representa un sistema de clasificación distinto. Por lo mismo, deben instanciar uno por cada problema que resuelvan. De lo contrario, podrían solapar resultados.  Para esto, les recomendamos crear los pipeline en distintas funciones, como la siguiente:

In [0]:
def get_tweet_classifier_pipeline(dataset_name):
  print(dataset_name)
  if dataset_name == 'anger':
    clf = AngerTweetClassifier()
  elif dataset_name == 'fear':
    clf = FearTweetClassifier()
  elif dataset_name == 'joy':
    clf = JoyTweetClassifier()
  elif dataset_name == 'sadness':
    clf = SadnessTweetClassifier()

  return Pipeline([('features', FeatureUnion([('bow', CountVectorizer()),
                                              ('chars_count', CharsCountTransformer())])), 
                   ('clf', clf)])    

### Ejecutar el pipeline para algún dataset

In [0]:
def run(dataset, dataset_name, pipeline):
    """Creamos el pipeline y luego lo ejecutamos el pipeline sobre un dataset. 
    Retorna el modelo ya entrenado mas sus labels asociadas y los scores obtenidos al evaluarlo."""

    # Dividimos el dataset en train y test.
    X_train, X_test, y_train, y_test = train_test_split(
        dataset.tweet,
        dataset.sentiment_intensity,
        shuffle=True,
        test_size=0.33)

    # Entrenamos el clasificador (Ejecuta el entrenamiento sobre todo el pipeline)
    pipeline.fit(X_train, y_train)

    # Predecimos las probabilidades de intensidad de cada elemento del set de prueba.
    predicted_probabilities = pipeline.predict_proba(X_test)

    # Obtenemos el orden de las clases aprendidas.
    learned_labels = pipeline.classes_

    # Evaluamos:
    scores = evaulate(predicted_probabilities, y_test, learned_labels, dataset_name)
    return pipeline, learned_labels, scores

### Ejecutar el sistema creado por cada train set

Este código crea y entrena los 4 sistemas de clasificación y luego los evalua. Para los experimentos, pueden copiar este código variando el pipeline cuantas veces estimen conveniente.

In [69]:
classifiers = []
learned_labels_array = []
scores_array = []

# Por cada nombre_dataset, dataset en train ('anger', 'fear', 'joy', 'sadness')
for dataset_name, dataset in train.items():
    
    # creamos el pipeline
    pipeline = get_tweet_classifier_pipeline(dataset_name)
    
    # ejecutamos el pipeline sobre el dataset
    classifier, learned_labels, scores = run(dataset, dataset_name, pipeline)

    # guardamos el clasificador entrenado (en realidad es el pipeline ya entrenado...)
    classifiers.append(classifier)

    # guardamos las labels aprendidas por el clasificador
    learned_labels_array.append(learned_labels)

    # guardamos los scores obtenidos
    scores_array.append(scores)

# print avg scores
print(
    "Average scores:\n\n",
    "Average AUC: {0:.3g}\t Average Kappa: {1:.3g}\t Average Accuracy: {2:.3g}"
    .format(*np.array(scores_array).mean(axis=0)))

anger
Confusion Matrix for anger:

[[  3  49   1]
 [  6 188   8]
 [  0  46  10]]

Classification Report:

              precision    recall  f1-score   support

         low       0.33      0.06      0.10        53
      medium       0.66      0.93      0.78       202
        high       0.53      0.18      0.27        56

    accuracy                           0.65       311
   macro avg       0.51      0.39      0.38       311
weighted avg       0.58      0.65      0.57       311

Scores:

AUC:  0.607	Kappa: 0.1	Accuracy: 0.646
------------------------------------------------------

fear
Confusion Matrix for fear:

[[ 20  77   2]
 [ 18 191  15]
 [  4  69  19]]

Classification Report:

              precision    recall  f1-score   support

         low       0.48      0.20      0.28        99
      medium       0.57      0.85      0.68       224
        high       0.53      0.21      0.30        92

    accuracy                           0.55       415
   macro avg       0.52      0.42

### Predecir los target set y crear la submission

Aquí predecimos los target set usando los clasificadores creados y creamos los archivos de las submissions.

In [0]:
def predict_target(dataset, classifier, labels):
    # Predecir las probabilidades de intensidad de cada elemento del target set.
    predicted = pd.DataFrame(classifier.predict_proba(dataset.tweet), columns=labels)
    # Agregar ids
    predicted['id'] = dataset.id.values
    # Reordenar las columnas
    predicted = predicted[['id', 'low', 'medium', 'high']]
    return predicted

In [0]:
predicted_target = {}

# Crear carpeta ./predictions
if (not os.path.exists('./predictions')):
    os.mkdir('./predictions')

else:
    # Eliminar predicciones anteriores:
    shutil.rmtree('./predictions')
    os.mkdir('./predictions')

# por cada target set:
for idx, key in enumerate(target):
    # Predecirlo
    predicted_target[key] = predict_target(target[key], classifiers[idx],
                                           learned_labels_array[idx])
    # Guardar predicciones en archivos separados. 
    predicted_target[key].to_csv('./predictions/{}-pred.txt'.format(key),
                                 sep='\t',
                                 header=False,
                                 index=False)

# Crear archivo zip
a = shutil.make_archive('predictions', 'zip', './predictions')

## 6. Conclusiones

...