# Tarea 1 - CC6205

-----------------------------

## Introducción
El objetivo general de la tarea consiste en la clasificación de tweets por intensidad de emoción. Específicamente, dado un tweet y una emoción (anger, fear, sadness y joy), se espera crear un sistema capaz de detectar la intensidad de esa emoción en el tweet (low, medium, high).

El procedimiento general utilizado durante la tarea es un afinamiento del tokenizador, para transformar los tweets a vectores de una forma tal que la clasificación final fuera satisfactoria en comparación a un baseline. A su vez, se prueban distintos clasificadores de librerias de python como NLTK, convergiendo a uno que entregara mejores resultados.

## Trabajo Relacionado
El peiper, explicar (Bryan se encarga)

## Algoritmos y Representaciones
Nuestro programa funciona como sigue a continuación:

### Importación de Librerías y Útiles
Se utilizarán las librerías *pandas*, *shutil*, *sklearn* y *numpy* en principio.

In [1]:
import pandas as pd
import shutil

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.metrics import confusion_matrix, cohen_kappa_score, classification_report, accuracy_score, roc_auc_score
from sklearn.model_selection import train_test_split

import os
import numpy as np

### Obtención de los Datasets
Estos se obtienen desde el github del curso.

In [2]:
train = {
    'anger': pd.read_csv('https://raw.githubusercontent.com/dccuchile/CC6205/master/assignments/assignment_1/data/train/anger-train.txt', sep='\t', names=['id', 'tweet', 'class', 'sentiment_intensity']),
    'fear': pd.read_csv('https://raw.githubusercontent.com/dccuchile/CC6205/master/assignments/assignment_1/data/train/fear-train.txt', sep='\t', names=['id', 'tweet', 'class', 'sentiment_intensity']),
    'joy': pd.read_csv('https://raw.githubusercontent.com/dccuchile/CC6205/master/assignments/assignment_1/data/train/joy-train.txt', sep='\t', names=['id', 'tweet', 'class', 'sentiment_intensity']),
    'sadness': pd.read_csv('https://raw.githubusercontent.com/dccuchile/CC6205/master/assignments/assignment_1/data/train/sadness-train.txt', sep='\t', names=['id', 'tweet', 'class', 'sentiment_intensity'])
}

target = {
    'anger': pd.read_csv('https://raw.githubusercontent.com/dccuchile/CC6205/master/assignments/assignment_1/data/target/anger-target.txt', sep='\t', names=['id', 'tweet', 'class', 'sentiment_intensity'], na_values=['NONE']),
    'fear': pd.read_csv('https://raw.githubusercontent.com/dccuchile/CC6205/master/assignments/assignment_1/data/target/fear-target.txt', sep='\t', names=['id', 'tweet', 'class', 'sentiment_intensity'], na_values=['NONE']),
    'joy': pd.read_csv('https://raw.githubusercontent.com/dccuchile/CC6205/master/assignments/assignment_1/data/target/joy-target.txt', sep='\t', names=['id', 'tweet', 'class', 'sentiment_intensity'], na_values=['NONE']),
    'sadness': pd.read_csv('https://raw.githubusercontent.com/dccuchile/CC6205/master/assignments/assignment_1/data/target/sadness-target.txt', sep='\t', names=['id', 'tweet', 'class', 'sentiment_intensity'], na_values=['NONE'])
}

### Pequeño análisis de los datos
Se imprime la cantidad de tweets de cada dataset, según su intensidad de sentimiento

In [4]:
def get_group_dist(group_name, train):
    print(group_name, "\n",
          train[group_name].groupby('sentiment_intensity').count())

def print_qtweets(dataset):
    for key in dataset:
        get_group_dist(key, dataset)

print_qtweets(train)

anger 
                       id  tweet  class
sentiment_intensity                   
high                 163    163    163
low                  161    161    161
medium               617    617    617
fear 
                       id  tweet  class
sentiment_intensity                   
high                 270    270    270
low                  288    288    288
medium               699    699    699
joy 
                       id  tweet  class
sentiment_intensity                   
high                 195    195    195
low                  219    219    219
medium               488    488    488
sadness 
                       id  tweet  class
sentiment_intensity                   
high                 197    197    197
low                  210    210    210
medium               453    453    453


### Metrica de Evaluación
Para esta tarea, se utiliza la métrica de evaluación AUROC (también conocida como AUC), la cual se define como el área bajo la curva característica de funcionamiento del receptor. (Explain https://stats.stackexchange.com/questions/132777/what-does-auc-stand-for-and-what-is-it)

In [5]:
# AUROC
def auc(test_set, predicted_set):
    high_predicted = np.array([prediction[2] for prediction in predicted_set])
    medium_predicted = np.array(
        [prediction[1] for prediction in predicted_set])
    low_predicted = np.array([prediction[0] for prediction in predicted_set])

    high_test = np.where(test_set == 'high', 1.0, 0.0)
    medium_test = np.where(test_set == 'medium', 1.0, 0.0)
    low_test = np.where(test_set == 'low', 1.0, 0.0)

    auc_high = roc_auc_score(high_test, high_predicted)
    auc_med = roc_auc_score(medium_test, medium_predicted)
    auc_low = roc_auc_score(low_test, low_predicted)

    auc_w = (low_test.sum() * auc_low + medium_test.sum() * auc_med +
             high_test.sum() * auc_high) / (
                 low_test.sum() + medium_test.sum() + high_test.sum())
    return auc_w    

### División del Dataset
Esto divide el dataset en un set de training y otro de testing.

In [6]:
def split_dataset(dataset):
    # Dividir el dataset en train set y test set
    X_train, X_test, y_train, y_test = train_test_split(
        dataset.tweet,
        dataset.sentiment_intensity,
        shuffle=True,
        test_size=0.33)
    return X_train, X_test, y_train, y_test

### Tokenizadores
Para crear los tokens, se utilizan distintos módulos y funcionalidades de variadas librerías. Se utiliza `TweetTokenizer` de la librería `nltk` para crear los tokens base, luego se definen: 

#### Stopwords Removal
Remueve los stopwords de los tokens, así como los símbolos que no aportan mucha utilidad.

In [10]:
from nltk.corpus import stopwords
def remStopWords(tokens):
    newTokens = []
    stopWords = set(stopwords.words('english'))
    stopWords_extended = stopWords | {'.', ',', ':', '+', '-', '(',')',';','\'','..','...','—', '>','<','\\'}
    for token in tokens:
        if (token not in stopWords_extended) and (token[0:1]!='@'):
            newTokens.append(token)
    return newTokens

#### Stemmer
Utiliza la stematization para reducir palabras a su raíz.

In [11]:
from nltk.stem import PorterStemmer 
def stemmize(tokens):
    ps = PorterStemmer()
    stemmedTokens = []
    for word in tokens:
        stemmedTokens.append(ps.stem(word))
    return stemmedTokens

#### Remove Hashtags
Tras varios experimentos, se deduce que los hashtags no aportan demasiada precisión al programa, sino que incluso lo entorpecían en ocasiones, provocando resultados no deseados. Aún así, parecen ser una importante fuente de información acerca del sentimiento, por lo tanto se decide convertirlo a palabras.

In [12]:
def hashtagToWord(tokens):
    newTokens = []
    for token in tokens:
        newTokens.append(token.replace('#',''))
    return newTokens

#### Lemmatizer
Utiliza la lemmatization para reducir palabras a su raíz, *truncando* las ultimas letras de la palabra.

In [13]:
from nltk.stem import WordNetLemmatizer
def lemmatize(tokens):
    lem = WordNetLemmatizer()
    lemmatizedTokens = []
    for word in tokens:
        lemmatizedTokens.append(lem.lemmatize(word))
    return lemmatizedTokens

#### Tokenizer
Usando distintas combinaciones de las utilidades ya mencionadas, se crea un tokenizador que puede usar cada una de ellas a elección. También se añade la posibilidad de usar el módulo `mark_negation`, el cual, añade un \_NEG a todas las palabras que vengan despues de una negación hasta el próximo punto. Por ejemplo:
I don't like olives. But I like pizza. -> I don't like_NOT olives_NOT. But I like pizza.

In [14]:
from nltk.tokenize import TweetTokenizer
from nltk.sentiment.util import mark_negation
def superTokenize(text, mark_neg, remSW, lem, stem):
    tokens = TweetTokenizer().tokenize(text)
    if mark_neg:    tokens = mark_negation(tokens)
    if remSW:       tokens = remStopWords(tokens)
    if lem:         tokens = lemmatize(tokens)
    if stem:        tokens = stemmize(tokens) 
    return tokens

### Definir evaluación

Esta función imprime la matriz de confusión, el reporte de clasificación y las metricas usadas en la competencia:


- `auc`
- `kappa`
- `accuracy`

In [7]:
def evaulate(predicted, y_test, labels):
    # Importante: al transformar los arreglos de probabilidad a clases,
    # entregar el arreglo de clases aprendido por el clasificador. 
    # (que comunmente, es distinto a ['low', 'medium', 'high'])
    predicted_labels = [labels[np.argmax(item)] for item in predicted]
    
    # Confusion Matrix
    print('Confusion Matrix for {}:\n'.format(key))

    # Classification Report
    print(
        confusion_matrix(y_test,
                         predicted_labels,
                         labels=['low', 'medium', 'high']))

    print('\nClassification Report')
    print(
        classification_report(y_test,
                              predicted_labels,
                              labels=['low', 'medium', 'high']))

    # AUC
    print("auc: ", auc(y_test, predicted))

    # Kappa
    print("kappa:", cohen_kappa_score(y_test, predicted_labels))

    # Accuracy
    print("accuracy:", accuracy_score(y_test, predicted_labels), "\n")

    print('------------------------------------------------------\n\n')

### Ejecutar el clasificador para cierto dataset

Clasifica un dataset. Retorna el modelo ya entrenado mas sus labels asociadas.


In [8]:
def classify(dataset, key):

    X_train, X_test, y_train, y_test = split_dataset(dataset)
    text_clf = get_classifier()

    # Entrenar el clasificador
    text_clf.fit(X_train, y_train)

    # Predecir las probabilidades de intensidad de cada elemento del set de prueba.
    predicted = text_clf.predict_proba(X_test)

    # Obtener las clases aprendidas.
    learned_labels = text_clf.classes_

    # Evaluar
    evaulate(predicted, y_test, learned_labels)
    return text_clf, learned_labels

### Ejecutar el clasificador por cada dataset


In [16]:
classifiers = []
learned_labels_array = []

# Por cada llave en train ('anger', 'fear', 'joy', 'sadness')
for key in train:
    classifier, learned_labels = classify(train[key], key)
    classifiers.append(classifier)
    learned_labels_array.append(learned_labels)

Confusion Matrix for anger:

[[  5  42   0]
 [  7 192  14]
 [  1  40  10]]

Classification Report
              precision    recall  f1-score   support

         low       0.38      0.11      0.17        47
      medium       0.70      0.90      0.79       213
        high       0.42      0.20      0.27        51

    accuracy                           0.67       311
   macro avg       0.50      0.40      0.41       311
weighted avg       0.61      0.67      0.61       311

auc:  0.49430419526882546
kappa: 0.11444529624356592
accuracy: 0.6655948553054662 

------------------------------------------------------


Confusion Matrix for fear:

[[ 22  69   4]
 [ 15 186  25]
 [  0  73  21]]

Classification Report
              precision    recall  f1-score   support

         low       0.59      0.23      0.33        95
      medium       0.57      0.82      0.67       226
        high       0.42      0.22      0.29        94

    accuracy                           0.55       415
   macro av

## Predecir target set

In [10]:
def predict_target(dataset, classifier, labels):
    # Predecir las probabilidades de intensidad de cada elemento del target set.
    predicted = pd.DataFrame(classifier.predict_proba(dataset.tweet), columns=labels)
    # Agregar ids
    predicted['id'] = dataset.id.values
    # Reordenar
    predicted = predicted[['id', 'low', 'medium', 'high']]
    return predicted

### Ejecutar la predicción y guardar archivos.

In [11]:
predicted_target = {}

if (not os.path.isdir('./predictions')):
    os.mkdir('./predictions')

else:
    # Eliminar predicciones anteriores:
    shutil.rmtree('./predictions')
    os.mkdir('./predictions')

for idx, key in enumerate(target):
    # Predecir el target set
    predicted_target[key] = predict_target(target[key], classifiers[idx],
                                           learned_labels_array[idx])
    # Guardar predicciones
    predicted_target[key].to_csv('./predictions/{}-pred.txt'.format(key),
                                 sep='\t',
                                 header=False,
                                 index=False)

# Crear archivo zip
a = shutil.make_archive('predictions', 'zip', './predictions')