# Tarea 1 NLP : Competencia de Clasificación de Texto
-------------------------------


- **Nombres:** Valentina Sepulveda, Joaquín Pérez

- **Usuario o nombre de equipo en Codalab:** meperd0nas, vsepulv




### Detalles e instrucciones de la competencia:

- La competencia consiste en resolver 4 problemas de clasificación distintos, cada uno de tres clases. Por cada problema deberán crear un clasificador distinto. La evaluación de la competencia se realiza en base a 4 métricas: AUC, Kappa y Accuracy. Los mejores puntajes en cada ítem serán los que ganen.

- Para comenzar se les entregará en este notebook el baseline y la estructura del reporte. El baseline es el código que realiza creación de features y clasificación básica. Los puntajes de este serán ocupados como base para la competencia: deben superar sus resultados para ser bien evaluados.  

- Para participar, deben registrarse en Codalab y luego ingresar a la competencia usando el siguiente [link]( https://competitions.codalab.org/competitions/24121?secret_key=f5eb2d95-b36e-4aad-8fc5-4d9d77f4e4dc). 

- **Es requisito entregar el reporte con el código y haber participado en la competencia para ser evaluado.**

- Pueden hacer grupos de máximo 2 alumnos. Cada grupo debe tener un nombre de equipo (En codalab, ir a settings y después cambiar Team Name). Solo una persona debe administrar la cuenta del grupo.

- En total pueden hacer un **máximo de 4 envíos/submissions** (tanto para equipos como para envíos indivuales).

- Hagan varios experimentos haciendo cross-validation o evaluación sobre una sub-partición antes de enviar sus predicciones a Codalab. Asegúrense que la distribución de las clases sea balanceada en las particiones de training y testing. Verificar que el formato de la submission coincida con el de la competencia. De lo contrario, se les será evaluado incorrectamente.

- Estar top 5 en alguna métrica equivale a 1 punto extra en la nota final.

- No se limiten a los contenidos vistos ni a scikit ni a este baseline. ¡Usen todo su conocimiento e ingenio en mejorar sus sistemas! 

- Todas las dudas escríbanlas en el hilo de U-cursos de la tarea. Los emails que lleguen al equipo docente serán remitidos a ese medio.


### Reporte

Este debe cumplir la siguiente estructura:

1.	**Introducción**: Presentar brevemente el problema a resolver, los métodos y representaciones utilizadas en el desarrollo de la tarea y conclusiones obtenidas. (0.5 Puntos)
2.	**Representaciones**: Describir los atributos y representaciones usadas como entrada de los clasificadores. Si bien, con Bag of Words (baseline) ya se comienzan a percibir buenos resultados, pueden mejorar su evaluación agregando más atributos y representaciones diseñadas a mano. Mas abajo encontrarán una lista útil de estos que les podrá ser de utilidad. (1.5 puntos)
3.	**Algoritmos**: Describir brevemente los algoritmos de clasificación usados. (0.5 puntos)
4.	**Métricas de evaluación**: Describir brevemente las métricas utilizadas en la evaluación indicando que miden y su interpretación. (0.5 puntos)
5.	**Experimentos**: Reportar todos sus experimentos. Comparar los resultados obtenidos utilizando diferentes algoritmos y representaciones. Estos experimentos los hacen sobre la sub-partición de evaluación que deben crear (o pueden usar cross-validation). Incluyan todo el código de sus experimentos aquí. ¡Es vital haber realizado varios experimentos para sacar una buena nota! (2 puntos)
6.	**Conclusiones**: Discutir resultados, proponer trabajo futuro. (1 punto)

### Baseline

Por último, el baseline contiene un código básico que:

- Obtiene los dataset.
- Divide los datasets en train (entrenamiento y prueba) y target set (el que clasificar para subir a la competencia).
- Crea un Pipeline que: 
    - Crea features personalizadas.
    - Transforma los dataset a bag of words (BoW).  
    - Entrena un clasificador usando cada train set.
- Clasifica y evalua el sistema creado usando el test set.
- Clasifica el target set.
- Genera una submission con el target en formato zip en el directorio en donde se está ejecutando el notebook. 

Algunas pistas sobre como mejorar el rendimiento de los sistemas que creen. (Esto tendrá mas sentido cuando vean el código)

- **Vectorizador**: investigar los modulos de `nltk`, en particular, `TweetTokenizer`, `mark_negation` para reemplazar los tokenizadores. También, el parámetro `ngram_range` (Ojo que el clf naive bayes no debería usarse con n-gramas, ya que rompe el supuesto de independencia). Además, implementar los atributos que crean útiles desde el listado del el enunciado. Investigar también el vectorizador tf-idf.

- **Clasificador**: investigar otros clasificadores mas efectivos que naive bayes. Estos deben poder retornar la probabilidad de pertenecia de las clases (ie: implementar la función `predict_proba`).

- **Features**: Recuerden que pueden implementar todas las features que se les ocurra! Aquí les adjuntamos algunos ejemplos:
    -	Word n-grams.
    -	Character n-grams. 
    -	Part-of-speech tags.
    -	Sentiment Lexicons (Lexicon = A set of words with a label or associated value.).
        - Count the number of positive and negative words within a sentence.
        - If the lexicon has associated intensity of feeling (for example in a decimal), then take the average of the intensity of the sentence according to the feeling, the sum, etc.
        -	A good lexicon of sentiment: [Bing Liu](http://www.cs.uic.edu/~liub/FBS/opinion-lexicon-English.rar) 
        - A reference with a lot of [sentiment lexicons](https://medium.com/@datamonsters/sentiment-analysis-tools-overview-part-1-positive-and-negative-words-databases-ae35431a470c). 
    -	The number of elongated words (words with one character repeated more than two times).
    -	The number of words with all characters in uppercase.
    -	The presence and the number of positive or negative emoticons.
    -	The number of individual negations.
    -	The number of contiguous sequences of dots, question marks and exclamation marks.
    -	Word Embeddings: Here are some good ideas on how to use them.
    https://stats.stackexchange.com/questions/221715/apply-word-embeddings-to-entire-document-to-get-a-feature-vector

- **Reducción de dimensionalidad**: También puede serles de ayuda. Referencias [aquí](https://scikit-learn.org/stable/modules/unsupervised_reduction.html).

- Por último, pueden encontrar mas referencias de cómo mejorar sus features, el vectorizador y el clasificador [aquí](https://affectivetweets.cms.waikato.ac.nz/benchmark/).

----------------------------------------

## 1. Introducción

La clasificación de emociones es una tema importante para encontrar patrones y relaciones que no son facilmente notadas por el ser humano pero que sin embargo son utilizadas diariamente, en particular calcular la intensidad de estas nos permite encontrar qué ciertos patrones dan más "fuerza" a una emoción dado el tipo de texto y el tipo de palabras usadas. Es dado esta importancia que es necesario resolver este problema. 

En este caso particular tenemos cuatro emociones distintas, alegria, tristeza, miedo y enojo, y tenemos varias intensidades asociadas a cada una de estas emociones que pueden ir de intensidad baja hasta intensidad alta. El problema a resolver es encontrar un clasificador que sea capaz de correctamente clasificar la intensidad de estas emociones dado unos tweet, para cada una de estas cuatro emociones. 

Para resolverlas se decidió entrenar un estimador con un set de entrenamiento y luego probarlo con un set de testeo. Para hacer este entrenamiento para el clasificador, se decidió que el clasificador tomaría los tweets y los veria como un bag of words de n-gramas, y que luego dado esta representacion se añadería por medio de transformaciones una serie de caracteristicas que serian del tipo Feature Vector, es decir vectores con valores que representarían una feature en particular y que describirian el tweet.

Se decidió el uso de un algoritmo: la regresión lineal, en particular la regresión logística. Este algoritmo se decidió en base a que otorga una probabilidad y en base tambien a que otorgó el mejor resultado dado unas pruebas.

Los experimentos que se decidieron hacerse fueron en base a distintos features y distintos algoritmos, uno probando con todos el mismo clasificador y mismas features, y otro con distintos features pero el mismo estimador. Estos primeros experimentos tuvieron *accuracy* de menos del sesenta por ciento por lo que se decidió analizar más a profundidad el codigo. Luego de analizarlo y modificar features para que tuvieran mayor peso, los resultados pasaron a más de setenta por ciento de accuracy promedio.

Se concluyó que las features afectan enormente la precision del clasificador, pero tambien que la manera en que está escrito el codigo tambien afecta, puesto que al rescribirlo mejoró su puntaje de forma considerable. También se concluye que es necesario analizar el train input, puesto que al hacer una prueba con todas las mismas features el puntaje era desigual y este mejoró al hacer el clasificador más especializado.

Dado proyectos futuros, faltaría mejorar la clasificación para la intensidad media puesta que esta tenia menor *accuracy* que la intensidad alta y baja en todas las emociones. Una idea sería hacer un clasificador intermedio que clasifique entre intensidad extrema, lease baja o alta, versus intensidad media. O buscar en otros algoritmos de clasificación que no fueron considerados anteriormente. Este clasificador podria utilizarse en el futuro para clasificar emociones dado un evento o ver la opinion del publico respecto a ciertos temas.

### Importar librerías y utiles

In [1]:
try:
    import emojis
except ImportError:
    !pip install emojis
    import emojis

try:
    import gensim.downloader as api
except ImportError:
    !pip install gensim
    import gensim.downloader as api # https://github.com/RaRe-Technologies/gensim-data


try:
    from better_profanity import profanity
except ImportError:
    !pip install better_profanity
    from better_profanity import profanity

try:
    from senticnet.senticnet import SenticNet
except ImportError:
    !pip install senticnet
    from senticnet.senticnet import SenticNet

try:
    from emosent import get_emoji_sentiment_rank
except ImportError:
    !pip install emosent-py
    from emosent import get_emoji_sentiment_rank
    # NOTA: Si este paquete arroja un error de decode
    # Hay que modificar el siguiente archivo en el ambiente:
    # env/Lib/site-packages/emosent/emosent.py
    # Hay que agregar un parámetro extra al open que está allí: encoding="utf8"

import nltk
import pandas as pd
import os
import numpy as np
import shutil

# get the model
model = api.load("glove-twitter-50")
nltk.download('opinion_lexicon')

from nltk.tokenize import TweetTokenizer
from nltk.sentiment.util import mark_negation

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.metrics import confusion_matrix, cohen_kappa_score, classification_report, accuracy_score, roc_auc_score
from sklearn.model_selection import train_test_split
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.linear_model import LogisticRegression



3184 | INFO | loading projection weights from C:\Users\Amitsuu/gensim-data\glove-twitter-50\glove-twitter-50.gz
3184 | INFO | loaded (1193514, 50) matrix from C:\Users\Amitsuu/gensim-data\glove-twitter-50\glove-twitter-50.gz
[nltk_data] Downloading package opinion_lexicon to
[nltk_data]     C:\Users\Amitsuu\AppData\Roaming\nltk_data...
[nltk_data]   Package opinion_lexicon is already up-to-date!


### Datos ####

Los datos son los que son dados de la competencia. Consiste en 4 datasets de entrenamiento y 4 datasets de testeo. Un dataset para enojo, alegria, miedo y tristeza.

In [2]:

# Datasets de entrenamiento.
train = {
    'anger': pd.read_csv('https://raw.githubusercontent.com/dccuchile/CC6205/master/assignments/assignment_1/data/train/anger-train.txt', sep='\t', names=['id', 'tweet', 'class', 'sentiment_intensity']),
    'fear': pd.read_csv('https://raw.githubusercontent.com/dccuchile/CC6205/master/assignments/assignment_1/data/train/fear-train.txt', sep='\t', names=['id', 'tweet', 'class', 'sentiment_intensity']),
    'joy': pd.read_csv('https://raw.githubusercontent.com/dccuchile/CC6205/master/assignments/assignment_1/data/train/joy-train.txt', sep='\t', names=['id', 'tweet', 'class', 'sentiment_intensity']),
    'sadness': pd.read_csv('https://raw.githubusercontent.com/dccuchile/CC6205/master/assignments/assignment_1/data/train/sadness-train.txt', sep='\t', names=['id', 'tweet', 'class', 'sentiment_intensity'])
}
# Datasets que deberán predecir para la competencia.
target = {
    'anger': pd.read_csv('https://raw.githubusercontent.com/dccuchile/CC6205/master/assignments/assignment_1/data/target/anger-target.txt', sep='\t', names=['id', 'tweet', 'class', 'sentiment_intensity'], na_values=['NONE']),
    'fear': pd.read_csv('https://raw.githubusercontent.com/dccuchile/CC6205/master/assignments/assignment_1/data/target/fear-target.txt', sep='\t', names=['id', 'tweet', 'class', 'sentiment_intensity'], na_values=['NONE']),
    'joy': pd.read_csv('https://raw.githubusercontent.com/dccuchile/CC6205/master/assignments/assignment_1/data/target/joy-target.txt', sep='\t', names=['id', 'tweet', 'class', 'sentiment_intensity'], na_values=['NONE']),
    'sadness': pd.read_csv('https://raw.githubusercontent.com/dccuchile/CC6205/master/assignments/assignment_1/data/target/sadness-target.txt', sep='\t', names=['id', 'tweet', 'class', 'sentiment_intensity'], na_values=['NONE'])
}


#### Balanceo de Clases ####

In [3]:
def get_group_dist(group_name, train):
    print(group_name, "\n",
          train[group_name].groupby('sentiment_intensity').count(),
          '\n---------------------------------------\n')
for dataset_name in train:
    get_group_dist(dataset_name, train)

anger 
                       id  tweet  class
sentiment_intensity                   
high                 163    163    163
low                  161    161    161
medium               617    617    617 
---------------------------------------

fear 
                       id  tweet  class
sentiment_intensity                   
high                 270    270    270
low                  288    288    288
medium               699    699    699 
---------------------------------------

joy 
                       id  tweet  class
sentiment_intensity                   
high                 195    195    195
low                  219    219    219
medium               488    488    488 
---------------------------------------

sadness 
                       id  tweet  class
sentiment_intensity                   
high                 197    197    197
low                  210    210    210
medium               453    453    453 
---------------------------------------



Viendo los datos de entrenamiendo, se observa un desbalance de las muestras, ya que hay una mayor cantidad 
 de datos clasificados `medium` en el corpus de entrenamiento. Por lo que se decidió realizar un
 balanceo haciendo undersampling de datos de categoría `medium`, hasta que fueran comparables con la cantidad de
 datos `low` y `high`.

In [4]:
from sklearn.utils import resample

df_resampled = {}
for key in train:
    df = train.get(key)
    high=df['sentiment_intensity']=='high'
    high=df[high]
    med=df['sentiment_intensity']=='medium'
    med=df[med]
    low=df['sentiment_intensity']=='low'
    low=df[low]
    downsample_size = max(len(low), len(high)) # Se reescala hasta el mayor de los otros dos
    med_re= resample(med, 
                replace=False,    # sample without replacement
                n_samples=downsample_size,     # to match minority class
                random_state=123) # reproducible results

    df_resampled[key] = pd.concat([med_re, high, low])
    

## 2. Representaciones
Para resolver el problema se decidió principalmente usar un Vector de n-gramas, junto con unas transformaciones en un Feature Vector. Este Feature Vector siendo definido a traves de varias caracteristicas que son explicadas más adelante, pero que principalmente consisten en el uso de palabras claves y su uso dentro de cada tweet.

##### Tokenizador
Para el tokenizador se utilizó `TweetTokenizer` de `nltk`, un tokenizador hecho a medida para tweets. Con este se divide el Tweet en una lista de strings, incluyendo los hashtags, y los emojis.

##### HashTag Bonus y Mark_negation
Para darle más peso a las palabras dentro de los hashtags se les agrega puntaje adicional a las palabras al ser dichas con #, dado que al usar un hashtag el usuario le
está dando un énfasis extra a ésta palabra. Este puntaje adicional se aplica en los features `MoodScore`
y en `SentimentLexicon`. Tambien en estas features se aplica `mark_negation` función que aplica
un preprocesamiento a la oración para indicar las palabras negadas para que al momento de contalibizarlas
se hagan de forma inversa.

In [5]:
def apply_hashtag_bonus(score, hashtag):
    if hashtag:
        return score*6
    else:
        return score

#### N-Gramas
Se utilizaron 4, 3, 2, 1-gramas de palabras, utilizando el tokenizador por defecto y `mark_negation`.

Utilizado en los clasificadores: `Anger`, `Fear`, `Joy`, `Sadness`.

In [6]:
t_tokenizer = TweetTokenizer()
def n_gram_feature_neg():
    return CountVectorizer(analyzer='word',
                                    ngram_range=(1, 4),
                                    tokenizer=t_tokenizer.tokenize,
                                    preprocessor = mark_negation,
                                    )

def n_gram_feature():
    return CountVectorizer(analyzer='word',
                                    ngram_range=(1, 4),
                                    tokenizer=t_tokenizer.tokenize,
                                    )


#### EmojiCount
Cuenta la cantidad de emojis que hay en un tweet. A los que posean más emojis se les agrega más puntaje, para aumentar la intensidad de la emoción al momento de representarlo.

Utilizado en los clasificadores: `Joy`, `Sadness`.

In [7]:
class EmojiCount(BaseEstimator, TransformerMixin):
    # largo = 1
    def get_relevant_chars(self, tweet):
        num_emojis = emojis.count(tweet)**2
        return [num_emojis]

    def transform(self, X, y=None):
        chars = []
        for tweet in X:
            chars.append(self.get_relevant_chars(tweet))
        return np.array(chars)

    def fit(self, X, y=None):
        return self

#### CharsCount
Cuenta la cantidad de carácteres especiales o strings especificos que hay en un tweet. Esta clase se inicializa en el pipeline de cada
clasificador para contar carácteres en específico.

Utilizado en los clasificadores: `Anger`, `Fear`, `Joy`, `Sadness`.

Los strings específicos utilizados se encontraron, viendo el dataset. Notando la prevalencia de ciertas palabras clave
para determinadas emociones:

`sadness`:  `sad`, `depress`, `anxi`, `feel`, `!`, `gloo`, `..`

`anger`: `angry`, `fuck`, `#`, `!`, `*`

`fear`: `terr`, `..`, `feel`, `panic`, `anxi`, `nerv`

`joy`: `lov`, `happy`, `joy`, `smil`, `❤`, `!`, `fun`, `laugh`

In [8]:
class CharsCount(BaseEstimator, TransformerMixin):
    # largo = 1
    def __init__(self, char):
        self.char = char

    def get_relevant_chars(self, tweet):
        num_chars = 2**tweet.lower().count(self.char)
        return [num_chars / len(tweet)]

    def transform(self, X, y=None):
        chars = []
        for tweet in X:
            chars.append(self.get_relevant_chars(tweet))

        return np.array(chars)

    def fit(self, X, y=None):
        return self

#### MoodScore:
Este feature usa SenticNet para obtener los estados de ánimo asociados a cada palabra válida del Tweet,
hay 8 estados de ánimo etiquetados por SenticNet: `sadness, disgust, joy, interest, admiration, anger, surprise ` y `fear`.
Cada palabra válida contiene sólo dos estados anímicos, aumentando en 1 su conteo de estado anímico.
Si la palabra está negada (usando `mark_negation`), el conteo se reduce en 1.

Utilizado en los clasificadores: `Anger`, `Fear`, `Joy`, `Sadness`.

In [9]:
class MoodScore(BaseEstimator, TransformerMixin):

    def __init__(self, hashtag_scoring=False):
        self.hashtag_scoring = hashtag_scoring
    # largo = 8
    def negate(self, number, boolean):
        if boolean:
            return -number
        else:
            return  number

    def transform(self, X, y=None):
        sentiment_array=[]
        sn = SenticNet()
        for tweet in X:
            moods = {
                 '#sadness':0,
                 '#disgust':0,
                 '#joy':0,
                 '#interest':0,
                 '#admiration':0,
                 '#anger':0,
                 '#surprise':0,
                 '#fear':0
            }
            mood_array = np.zeros(8)
            tokenizer = TweetTokenizer()
            tokens = tokenizer.tokenize(tweet)
            tokens_neg = mark_negation(tokens)
            for token in tokens_neg:
                negated = False
                hashtag = False
                if token[-4:] == "_NEG":
                    negated = True
                    token = token[:-4]
                if token[:1] == "#":
                    token = token[1:]
                    hashtag = True and self.hashtag_scoring
                if token in sn.data:
                    if sn.polarity_value(token) == 'positive':
                        score = apply_hashtag_bonus(1, hashtag)
                    else:
                        score = apply_hashtag_bonus(-1, hashtag)
                    for tag in sn.moodtags(token):
                        moods[tag] += self.negate(score, negated)

            for idx, key in enumerate(moods):
                mood_array[idx] = moods[key]


            sentiment_array.append(mood_array)

        return np.array(sentiment_array)

    def fit(self, X, y=None):
        return self



#### WordEmbeddings:
Para los Word Embeddings se utilizó el WordEmbedding de GloveTwitter, se utilizó el modelo 50 de éste WE.

Utilizado en los clasificadores: `Anger`, `Fear`, `Joy`, `Sadness`.

In [10]:
class WordEmbeddings(BaseEstimator, TransformerMixin):
    # Usa el diccionario y encuentra su origen
    def __init__(self, model):
      self.model = model

    def transform(self, X, y=None):
        aggregation = np.mean
        tokenizer = TweetTokenizer()
        doc_embeddings = []
        for tweet in X:
            tokens = tokenizer.tokenize(tweet)
            selected_words = []
            for token in tokens:
                if token in self.model.vocab:
                    selected_words.append(self.model[token])
            
            if len(selected_words) > 0:
                doc_emb = aggregation(np.array(selected_words), axis = 0)
                doc_embeddings.append(doc_emb)
            else:
                doc_embeddings.append(np.zeros(self.model.vector_size))

        return np.array(doc_embeddings)

    def fit(self, X, y=None):
        return self

#### SentimentLexicon:
Utiliza el `opinion_lexicon` de `nltk` para obtener la cantidad de palabras positivas y negativas de un Tweet. Si se encuentra una palabra positiva, aumenta el grado de "positividad" que tiene el tweet, por el contrario si se encuentra con una palabra de connotacion negativa este valor este aumenta su grado de "negatividad". Al final se entregan las palabras positivas y negativas del tweet.

Utilizado en los clasificadores: `Anger`, `Fear`, `Joy`, `Sadness`.

In [11]:
from nltk.corpus import opinion_lexicon
class SentimentLexicon(BaseEstimator, TransformerMixin):

    def __init__(self, hashtag_scoring=False):
        self.hashtag_scoring = hashtag_scoring

    # largo = 2
    def fun(self, tweet):
        tokenizer = TweetTokenizer()
        t=tokenizer.tokenize(tweet)
        t = mark_negation(t)
        pos_list=set(opinion_lexicon.positive())
        neg_list=set(opinion_lexicon.negative())
        pos_words=0
        neg_words=0
        for i in t:
            negated = False
            hashtag = False
            if i[-4:] == "_NEG":
                negated = True
                i = i[:-4]
            if i[:1] == "#":
                i = i[1:]
                hashtag = True and self.hashtag_scoring
            if i in pos_list:
                if negated:
                    neg_words=neg_words+apply_hashtag_bonus(1,hashtag)
                else:
                    pos_words=pos_words+apply_hashtag_bonus(1,hashtag)
            elif i in neg_list:
                if negated:
                    pos_words=pos_words+apply_hashtag_bonus(1,hashtag)
                else:
                    neg_words=neg_words+apply_hashtag_bonus(1,hashtag)
        return [pos_words,neg_words]
    
    def transform(self, X, y=None):
        a_list = []
        for tweet in X:
            a_list.append(self.fun(tweet))
        return a_list

    def fit(self, X, y=None):
        return self
 
 

#### UpperLetters:
Cuenta la tasa de mayusculas de un Tweet. Asi si un tweet tiene todos sus palabras en mayusculas, este tiene una tasa más grande y por ende una intensidad mayor de la emoción que intenta clasificar.

Utilizado en los clasificadores: `Anger`, `Joy`.

In [12]:
class UpperLetters(BaseEstimator, TransformerMixin):
    # largo = 1
    def fun(self, tweet):
        tokenizer=TweetTokenizer()
        t=tokenizer.tokenize(tweet)
        largo=len(t)
        num_Upper=0
        for i in t:
            if i.isupper() and len(i)>1:
                num_Upper=num_Upper+1
        return [num_Upper/largo]
    
    def transform(self, X, y=None):
        a_list = []
        for tweet in X:
            a_list.append(self.fun(tweet))
        return a_list

    def fit(self, X, y=None):
        return self


#### LowerLetters:
Cuenta la tasa de mayusculas de un Tweet. Esto cuenta lo contrario a la Feature anterior, si hay un numero mayor de palabras en minusculas, aumenta la tasa y por ende aumenta la intensidad de emociones negativas como lo son la tristeza y el miedo.

Utilizado en los clasificadores: `Fear`.

In [13]:
class LowerLetters(BaseEstimator, TransformerMixin):
    # largo = 1
    def fun(self, tweet):
        tokenizer=TweetTokenizer()
        t=tokenizer.tokenize(tweet)
        largo=len(t)
        num_Lower=0
        for i in t:
            if i.islower() and len(i)>1:
                num_Lower=num_Lower+1
        return [num_Lower/largo]

    def transform(self, X, y=None):
        a_list = []
        for tweet in X:
            a_list.append(self.fun(tweet))
        return a_list

    def fit(self, X, y=None):
        return self

#### CurseWords:
Utilizando el paquete `better_profanity`, cuenta la cantidad de palabras ofensivas. Mientras más *curse words* hay, aumenta la intensidad de la emoción.

Utilizado en los clasificadores: `Anger`, `Fear`.

In [14]:
class CurseWords(BaseEstimator, TransformerMixin):
    # largo = 1
    def countCurseWords(self, tweet):
        t=TweetTokenizer().tokenize(tweet)
        x=0
        for i in t:
            if profanity.contains_profanity(i):
                x=x+1
        return [x*10]
        
    def transform(self, X, y=None):
        a_list = []
        for tweet in X:
            a_list.append(self.countCurseWords(tweet))
        return a_list

    def fit(self, X, y=None):
        return self


#### EmojiScore:

Utilizando el paquete `emosent-py`, obtiene los puntajes de sentimiento de cada uno de los emojis del tweet, que tiene un puntaje positivo, neutro y negativo asociado. Así las emociones como alegria tienen una carga más positiva mientras que emociones como tristeza tiene una carga más negativa.

Utilizado en los clasificadores: `Anger`, `Fear`, `Joy`, `Sadness`.

In [15]:
class EmojiScore(BaseEstimator, TransformerMixin):
    # largo = 3
    def fun(self, tweet):
        tokenizer = TweetTokenizer()
        tokens = tokenizer.tokenize(tweet)
        positive = 0
        negative = 0
        neutral = 0
        for token in tokens:
            try: # Horrible forma de saber si un token es un emoji :c
                # y hay emojis que no tienen datos en esta libreria
                data = get_emoji_sentiment_rank(token)
                positive += data.get('positive')
                negative += data.get('negative')
                neutral += data.get('neutral')
            except KeyError:
                pass

        return [positive, neutral, negative]

    def transform(self, X, y=None):
        a_list = []
        for tweet in X:
            a_list.append(self.fun(tweet))
        return a_list

    def fit(self, X, y=None):
        return self

#### Emoticons:
Cuenta las caritas que se pueden hacer utilizando sólo ASCII. Dependiendo del tipo de emoticons, se le asocia una emoción y un puntaje.

Utilizado en los clasificadores: `Anger`, `Fear`, `Joy`, `Sadness`.

In [16]:
class Emoticons(BaseEstimator, TransformerMixin):
    # largo = 1
    def fun(self, tweet):
        happy_faces=tweet.count(':)') + tweet.count(':D') + tweet.count('c:')
        sad_faces=tweet.count(':(') + tweet.count(':c')
        return [happy_faces*10,sad_faces*10]

    def transform(self, X, y=None):
        a_list = []
        for tweet in X:
            a_list.append(self.fun(tweet))
        return a_list

    def fit(self, X, y=None):
        return self

### Features implementadas pero no utilizadas.

#### CountLength
Cuenta la cantidad de carácteres del Tweet. Se retiró dado a que confunde a todos
los estimadores y no daba buenos resultados en los experimentos.

In [17]:
class CountLength(BaseEstimator, TransformerMixin):
    # largo = 1
    def get_relevant_chars(self, tweet):
        num_chars = len(tweet)
        return [num_chars]

    def transform(self, X, y=None):
        chars = []
        for tweet in X:
            chars.append(self.get_relevant_chars(tweet))
        return np.array(chars)

    def fit(self, X, y=None):
        return self



#### NullFeature
Debido a un error de Features, dado que se le daba una misma instancia de feature
a los 4 pipelines, al crear la submission el programa se caía. Este feature fue una
solución temporal pero definitivamente un síntoma del problema subyacente.

In [18]:
class NullFeature(BaseEstimator, TransformerMixin):
    def __init__(self, dim):
        self.dim = dim

    def transform(self, X, y=None):
        a_list = []
        for tweet in X:
            a_list.append(np.zeros(self.dim))
        return a_list

    def fit(self, X, y=None):
        return self


## 3. Algoritmos

De los algoritmos de clasificación se decidió utilizar Regresión Logística, este es un algoritmo en que se hace una regresion en base a los datos de entrenamiento usando una transformacion lineal.
Se decidió utilizar éste dado que es un estimador
que es ideal para problemas de clasificación, dado que modela probabilidades, como el que se tratando aquí, dentro de las opciones
internas de este estimador, se decidió utilizar la opción de multi_class `multinomial`, dado que el
`one_vs_rest` se desbalancea dado que compara una clase con el resto.


In [19]:
def estimator():
    return LogisticRegression(max_iter=3000000, multi_class="multinomial")


## 4. Métricas de Evaluación

Las métricas utlizadas en la competencia para la evaluación de los clasificadores implementados son:

- AUC: El AUC (Area Under the Curve), es una métrica que calcula el área de la curva ROC. La curva ROC, es una curva que
compara la tasa falsos positivos contra la tasa verdaderos positivos a lo largo de los diferentes thresholds de una curva
de probabilidades de un clasificador determinado.

- Kappa: El coeficiente kappa de Cohen es una métrica que establece qué tan certero es el clasificador con los resultados
esperados teniendo en cuenta la posibilidad de que las predicciones acertadas pudieron haber sido por mero azar.

- Accuracy: El Accuracy mide la proporción de aciertos del clasificador de forma simple, contando la cantidad de clases
bien predichas versus la cantidad de predicciones realizadas.



In [20]:
# Estas funciones están a cargo de evaluar los resultados de la tarea. No deberían cambiarlas.

def auc_score(test_set, predicted_set):
    high_predicted = np.array([prediction[2] for prediction in predicted_set])
    medium_predicted = np.array(
        [prediction[1] for prediction in predicted_set])
    low_predicted = np.array([prediction[0] for prediction in predicted_set])
    high_test = np.where(test_set == 'high', 1.0, 0.0)
    medium_test = np.where(test_set == 'medium', 1.0, 0.0)
    low_test = np.where(test_set == 'low', 1.0, 0.0)
    auc_high = roc_auc_score(high_test, high_predicted)
    auc_med = roc_auc_score(medium_test, medium_predicted)
    auc_low = roc_auc_score(low_test, low_predicted)
    auc_w = (low_test.sum() * auc_low + medium_test.sum() * auc_med +
             high_test.sum() * auc_high) / (
                 low_test.sum() + medium_test.sum() + high_test.sum())
    return auc_w


def evaulate(predicted_probabilities, y_test, labels, dataset_name):
    # Importante: al transformar los arreglos de probabilidad a clases,
    # entregar el arreglo de clases aprendido por el clasificador.
    # (que comunmente, es distinto a ['low', 'medium', 'high'])
    predicted_labels = [
        labels[np.argmax(item)] for item in predicted_probabilities
    ]
    print('Confusion Matrix for {}:\n'.format(dataset_name))
    print(
        confusion_matrix(y_test,
                         predicted_labels,
                         labels=['low', 'medium', 'high']))

    print('\nClassification Report:\n')
    print(
        classification_report(y_test,
                              predicted_labels,
                              labels=['low', 'medium', 'high']))
    # Reorder predicted probabilities array.
    labels = labels.tolist()
    predicted_probabilities = predicted_probabilities[:, [
        labels.index('low'),
        labels.index('medium'),
        labels.index('high')
    ]]
    print(dataset_name, end='\t')
    auc = round(auc_score(y_test, predicted_probabilities), 3)
    print("Scores:\n\nAUC: ", auc, end='\t')
    kappa = round(cohen_kappa_score(y_test, predicted_labels), 3)
    print("Kappa:", kappa, end='\t')
    accuracy = round(accuracy_score(y_test, predicted_labels), 3)
    print("Accuracy:", accuracy)
    print('------------------------------------------------------\n')
    return np.array([auc, kappa, accuracy])

## 5. Experimentos

Para los experimentos y el entrenamiento se decidió utilizar undersampling, dado que la clase mayoritaria es el doble de las otras clases.

Para la validación interna, cada prueba (run) obtiene el mismo conjunto del dataset reducido, el cual
se clasifica para obtener los aumentos o bajas en las métricas dado algún cambio, se eligió una semilla específica
para que ésta partición sea constante, sin embargo ésta partición no se revisó de ninguna forma para mejorar el clasificador.

Para los primeros dos envíos de la competencia , los resultados fueron increíblemente anómalos, con
resultados pobres a lo largo de todos las métricas salvo para `sadness`.

Esto hizo aparecer un error de programación, que era que se estaba utilizando el mismo estimador para
todos los pipelines de los otros clasifcadores, por lo que se entrenaba con los datos del último pipeline
que era exactamente la métrica que no estaba tan afectada `sadness`.

Otro error de programación que incluso contribuyó a la creación del feature `NullFeature` era que se
utilizaba la misma instancia de `CountVectorizer` para entrenar los datos, lo que traía inconsistencias
sobre la cantidad de features de cada uno de los pipelines a la hora de evaluar el conjunto target.

Antes de realizar un submission más se corrigió un pequeño error en `SentimentLexicon`, éste consistía
en que antes de realizar la tokenización, se eliminaban todos los `#` lo que producía que no se contabilizan
la puntuación extra de los `hashtags`. Una vez corregido y haber comparado resultados, había un cambio
de performance en los clasificadores: Todos los clasificadores salvo `sadness` empeoraban en sus métricas,
por lo que se agregó el atributo `hashtag_scoring` a dicha clase.

Ya resueltos estos problemas, se envió un nuevo submission. La mejora fue evidente, de los últimos
puestos se subió considerablemente.

En las pruebas internas de esa submission lograron los siguientes estadísticas:

| - |AUC|Kappa|Accuracy|
|----|----|----|-----|
|Anger|0.748|0.383 | 0.59
| Fear| 0.743|0.341 | 0.561
| Joy|0.769	|0.404| 0.603
| Sadness|0.723|0.311|0.544
|Average|0.746	| 0.36| 0.575

Posteriormente y siguiendo el argumento de `hastag_scoring` en `SentimentLexicon` se hizo
mismo razonamiento en `MoodScore`, acción que impactaba negativamente en `joy` y `angry`, por lo
que se desactivó en dichos casos.

Este cambio mejoró los puntajes de `fear` y `sadness` a (y tambien en consecuencia):

| - |AUC|Kappa|Accuracy|
|----|----|----|-----|
|Fear| 0.743$\to$ 0.734|0.341 $\to$0.35| 0.561$\to$ 0.568
|Sadness|0.723$\to$ 0.718|0.311$\to$0.334|0.544$\to$ 0.559
|Average|0.746$\to$  0.742|0.36$\to$  0.371| 0.575$\to$  0.582

Posteriormente se realizaron pruebas, sacando features para determinar si éstos confundían al
clasificador.



Para `joy`: Se eliminó `UpperLetters`
Para `angry`: Se eliminó `CharCount` que contaba la cantidad de `'` (quotes) y la cantidad de emojis utilizados. Tambien
se arregló el `CharCount` que contaba las palabras `rage` en vez de `fuck` (que era el propósito original).
Para `sad`: Se eliminó `LowerCount`.


Las estadísticas mejoraron a:

| - |AUC|Kappa|Accuracy|
|----|----|----|-----|
|Anger|0.748 $\to$ 0.743|0.383 $\to$ 0.411 | 0.59 $\to$ 0.609
|Fear| 0.734|0.35	| 0.568
| Joy|0.769	|0.404| 0.603
|Sadness|0.718$\to$ 0.725|0.334$\to$0.328|0.559$\to$ 0.564
|Average|0.743$\to$  0.743|0.371$\to$  0.373| 0.584

Para finalizar se experimentó utilizando `mark_negation` en el `n-gram` para ver si los resultados mejoraban:
Mejoró las estadísticas para `fear` y `sadness`:

| - |AUC|Kappa|Accuracy|
|----|----|----|-----|
|Fear| 0.734|0.35 $\to$ 0.362| 0.568 $\to$ 0.575
|Sadness|0.725$\to$0.718|0.328$\to$0.342|0.584$\to$ 0.564

#### Pipeline ####

Se definieron los siguientes pipelines a cada uno de los clasificadores:

In [21]:
def sad_pipeline():
    return Pipeline([('features',
                      FeatureUnion([
                                    # Primary
                                    ('n-gram', n_gram_feature()),
                                    ('word_embeddings', WordEmbeddings(model)),
                                    ('sentiment',SentimentLexicon(hashtag_scoring=True)),
                                    ('sentiment_score',  MoodScore()),
                                    ('emoji_score', EmojiScore()),
                                    ('emoticons',Emoticons()),
                                    # Secondary
                                    ('emoji_count',EmojiCount()),
                                    ('sad_count', CharsCount('sad')),
                                    ('depression_count', CharsCount('depress')),
                                    ('anxiety_count', CharsCount('anxi')),
                                    ('feel_count', CharsCount('feel')),
                                    ('!_count', CharsCount('!')),
                                    ('gloom_count', CharsCount('gloo')),
                                    ('.._count', CharsCount("..")),
                                    ])), ('clf', estimator())])

def angry_pipeline():
    return Pipeline([('features',
                      FeatureUnion([
                                    # Primary
                                    ('n-gram', n_gram_feature_neg()),
                                    ('word_embeddings', WordEmbeddings(model)),
                                    ('sentiment',SentimentLexicon()),
                                    ('sentiment_score',  MoodScore(hashtag_scoring=True)),
                                    ('emoji_score', EmojiScore()),
                                    ('emoticons',Emoticons()),
                                    # Secondary
                                    ('curse_words',CurseWords()),
                                    ('angry_count', CharsCount('angry')),
                                    ('fuck_count', CharsCount('fuck')),
                                    ('#_count', CharsCount('#')),
                                    ('!_count', CharsCount('!')),
                                    ('*_count', CharsCount('*')),
                                    ])), ('clf', estimator())])
    
def fear_pipeline():
    return Pipeline([('features',
                      FeatureUnion([
                                    # Primary
                                    ('n-gram', n_gram_feature()),
                                    ('word_embeddings', WordEmbeddings(model)),
                                    ('sentiment',SentimentLexicon()),
                                    ('sentiment_score',  MoodScore()),
                                    ('emoji_score', EmojiScore()),
                                    ('emoticons',Emoticons()),
                                    # Secondary
                                    ('lower_count', LowerLetters()),
                                    ('curse_words',CurseWords()),
                                    ('terror_count', CharsCount("terr")),
                                    ('.._count', CharsCount("..")),
                                    ('feel_count', CharsCount("feel")),
                                    ('panic_count', CharsCount('panic')),
                                    ('anxiety_count', CharsCount('anxi')),
                                    ('nervous_count', CharsCount('nerv')),
                                    ])), ('clf', estimator())])
def joy_pipeline():
    return Pipeline([('features',
                      FeatureUnion([
                                    # Primary
                                    ('n-gram', n_gram_feature_neg()),
                                    ('word_embeddings', WordEmbeddings(model)),
                                    ('sentiment',SentimentLexicon()),
                                    ('sentiment_score',  MoodScore(hashtag_scoring=True)),
                                    ('emoji_score', EmojiScore()),
                                    ('emoticons',Emoticons()),
                                    # Secondary
                                    ('emoji_count',EmojiCount()),
                                    ('love_count', CharsCount("lov")),
                                    ('happy_count', CharsCount("happy")),
                                    ('joy_count', CharsCount('joy')),
                                    ('smile_count', CharsCount('smil')),
                                    ('heart_count', CharsCount('❤')),
                                    ('!_count', CharsCount('!')),
                                    ('fun', CharsCount('fun')),
                                    ('laugh_count', CharsCount('laugh')),
                                    ])), ('clf', estimator())])

In [22]:
# Ejecutar el pipeline para algun data-set
def run(dataset, dataset_name, pipeline):
    """Creamos el pipeline y luego lo ejecutamos el pipeline sobre un dataset. 
    Retorna el modelo ya entrenado mas sus labels asociadas y los scores obtenidos al evaluarlo."""

    # Dividimos el dataset en train y test.
    X_train, X_test, y_train, y_test = train_test_split(
        dataset.tweet,
        dataset.sentiment_intensity,
        shuffle=True,
        random_state=500,
        test_size=0.33)

    # Entrenamos el clasificador (Ejecuta el entrenamiento sobre todo el pipeline)
    pipeline.fit(X_train, y_train)

    # Predecimos las probabilidades de intensidad de cada elemento del set de prueba.
    predicted_probabilities = pipeline.predict_proba(X_test)

    # Obtenemos el orden de las clases aprendidas.
    learned_labels = pipeline.classes_

    # Evaluamos:
    scores = evaulate(predicted_probabilities, y_test, learned_labels, dataset_name)
    return pipeline, learned_labels, scores
    

In [None]:
pipelines = {'anger':angry_pipeline(), 'fear':fear_pipeline(), 'joy':joy_pipeline(), 'sadness':sad_pipeline()}

# Get clasif/labels/scores
classifiers = []
learned_labels_array = []
scores_array = []

for dataset_name, dataset in train.items():

    # creamos el pipeline
    pipeline = pipelines.get(dataset_name)

    # ejecutamos el pipeline sobre el dataset
    classifier, learned_labels, scores = run(df_resampled.get(dataset_name), dataset_name, pipeline)

    # guardamos el clasificador entrenado (en realidad es el pipeline ya entrenado...)
    classifiers.append(classifier)

    # guardamos las labels aprendidas por el clasificador
    learned_labels_array.append(learned_labels)

    # guardamos los scores obtenidos
    scores_array.append(scores)


# print avg scores
print(
    "Average scores:\n\n",
    "Average AUC: {0:.3g}\t Average Kappa: {1:.3g}\t Average Accuracy: {2:.3g}"
    .format(*np.array(scores_array).mean(axis=0)))


Confusion Matrix for anger:

[[35 16  2]
 [18 20  9]
 [11  7 43]]

Classification Report:

              precision    recall  f1-score   support

         low       0.55      0.66      0.60        53
      medium       0.47      0.43      0.44        47
        high       0.80      0.70      0.75        61

    accuracy                           0.61       161
   macro avg       0.60      0.60      0.60       161
weighted avg       0.62      0.61      0.61       161

anger	Scores:

AUC:  0.743	Kappa: 0.411	Accuracy: 0.609
------------------------------------------------------



### Predecir los target set y crear la submission

Aquí predecimos los target set usando los clasificadores creados y creamos los archivos de las submissions.

In [None]:
def predict_target(dataset, classifier, labels):
    # Predecir las probabilidades de intensidad de cada elemento del target set.
    predicted = pd.DataFrame(classifier.predict_proba(dataset.tweet), columns=labels)
    # Agregar ids
    predicted['id'] = dataset.id.values
    # Reordenar las columnas
    predicted = predicted[['id', 'low', 'medium', 'high']]
    return predicted

In [None]:
predicted_target = {}

# Crear carpeta ./predictions
if not os.path.exists('./predictions'):
    os.mkdir('./predictions')

else:
    # Eliminar predicciones anteriores:
    shutil.rmtree('./predictions')
    os.mkdir('./predictions')

# por cada target set:
for idx, key in enumerate(target):
    # Predecirlo
    predicted_target[key] = predict_target(target[key], classifiers[idx],
                                           learned_labels_array[idx])
    # Guardar predicciones en archivos separados. 
    predicted_target[key].to_csv('./predictions/{}-pred.txt'.format(key),
                                 sep='\t',
                                 header=False,
                                 index=False)

# Crear archivo zip
a = shutil.make_archive('predictions', 'zip', './predictions')

## 6. Conclusiones
Desarrollar features para el análisis de intensidad en tweets, permite el estudio profundo de cómo se expresan los seres humanos, problema principal de este curso.
Dados los resultados de los experimentos se concluye que en efecto hay patrones que afectan la intensidad de la emoción al clasificar, que bien pueden ser los emojis utilizados, o bien ciertas palabras en especifico, como también el uso de caracteres especiales. Tambien se puede notar del efecto que tienen los hashtag para medir la intensidad de las emociones, dado que al darles más peso en los Features los puntajes mejoraron considerablemente. En general al darle más peso a estas features cuando no eran igual a cero, mejoraban considerablemente los puntajes, por lo que se puede concluir que afectan de gran manera la intensidad de la emocion.

Otra cosa que tambien se puede notar luego de hacer varios experimentos, es que todas las emociones tienen sus propias caracteristicas y es distinto clasificar intensidad en alegria que en tristeza o miedo, por lo que cada emoción requiere su propio analisis.

Dado los problemas que ocurrieron en los primeros experimentos, tambien es de notar que la forma en que el clasificador está programado afecta el resultados de los experimentos, puesto que en nuestro caso al escribir el programa en los primero experimentos nos daba resultados enormemente distintos a la de los siguientes experimentos incluso con las mismas features, por lo que es importante considerar la forma en que están escritos los programas.

Tambien es importante saber como se utilizan los paquetes dado que los clasificadores que escribimos depende de su buen funcionamiento y buen uso, dado que afectan el puntaje del clasificador.

Ahora en base a los resultados de las clasificaciones se aprecia que las metricas con la intensidad media son más bajas que la  misma metrica con la intensidad baja o alta en todas las emociones. Para mejorar esto en el futuro se está pensando en utilizar un clasificador que diferencia la intensidad media de las otras intensidades, para luego clasificar estos datos con las intensidades bajas o altas. Tambien se está pensando en considerar otros clasificadores que no habian sido considerados hasta ahora.
Si se mejorase con la intensidad media el proyecto podria utilizarse para medir intensidad de emociones en distintos eventos, como en un terremoto o en un atentado. Como tambien ver la opinion publica de ciertas temas en especificos como en la politica.