<div style="background-color: #1DA1F2; padding: 20px;"><b><h1> Descifrando el lenguaje emocional en Twitter: Un análisis predictivo basado en aprendizaje automático. </h1></b></div>

**Autor**: Neivys Luz González Gómez

La identificación de emociones es una tarea fundamental en el campo del procesamiento de lenguaje natural, que se enfoca en clasificar textos según su tono emocional. A pesar de que el objetivo es identificar una amplia variedad de emociones humanas, la mayoría de los conjuntos de datos disponibles se limitan a las polaridades positiva, negativa y, en ocasiones, neutral.

Detectar emociones a partir de textos es un reto complejo en el procesamiento del lenguaje natural, ya que se trata de un problema de clasificación multiclase y, en muchas ocasiones, no hay suficientes datos etiquetados disponibles. Sin embargo, este conjunto de datos etiquetado proporciona la oportunidad de aplicar diversas técnicas de análisis exploratorio y modelado para entender mejor la dinámica emocional en las redes sociales y mejorar la capacidad de detección en tiempo real.

El conjunto de datos de emociones se obtiene a partir de mensajes en inglés de Twitter y contiene seis emociones básicas: neutralidad, preocupación, felicidad, tristeza, amor, sorpresa, diversión, alivio, odio, vacío, entusiasmo y aburrimiento. Este conjunto de datos ofrece una variedad más amplia de emociones humanas, lo que permite el entrenamiento y la evaluación de modelos de análisis de sentimientos con mayor precisión y exhaustividad.

<div class="alert alert-info alert-info"><b><h3>Objetivo General</h3></b>
    
**Desarrollar un modelo que permita detectar emociones en los tweets y analizar patrones en el lenguaje utilizado en Twitter para ayudar en la detección temprana de trastornos emocionales como la depresión, la ansiedad, entre otros.**
</div>

---

# Notebook N° 3: Pre-procesado de la base de dato.

Este notebook es una parte importante del pre-procesamiento de una base de datos de tweets. Aquí se llevan a cabo varias tareas para preparar los datos para su posterior análisis. Las tareas principales que se realizan en este notebook son las siguientes:

* Procesamiento de los tweets: En esta sección, se procesan los tweets para eliminar caracteres no deseados, eliminar menciones, hashtags y URLs y convertir el texto a minúsculas. Además, se eliminan los tweets vacíos o muy cortos y se realiza una lematización de las palabras en los tweets.

* Creación de variables de polaridad: En esta sección, se utiliza la biblioteca TextBlob para calcular la polaridad de cada tweet en la base de datos. La polaridad se define como una medida de la positividad o negatividad del tweet. Se crea una nueva columna en la base de datos que contiene la polaridad de cada tweet.

* Creación de variables de polaridad_vader: En esta sección, se utiliza la biblioteca Vader para calcular la polaridad de cada tweet en la base de datos. Vader utiliza un enfoque más avanzado que TextBlob y tiene en cuenta el contexto y las palabras intensificadoras en el texto para calcular la polaridad. Se crea una nueva columna en la base de datos que contiene la polaridad_vader de cada tweet.

* Eliminación de columnas innecesarias: En esta sección, se eliminan las columnas de la base de datos que no se utilizarán en el análisis posterior. Esto puede incluir columnas como la fecha del tweet o la ubicación del usuario que publicó el tweet.

<div class="alert alert-block alert-warning">
<b><h1>Descripción de las Variables</h1></b> 
</div>

Se dispone de un conjunto de datos proveniente de data.world, una plataforma que proporciona acceso a conjuntos de datos públicos. Este dataset consiste en una colección de tweets etiquetados con la emoción que expresan. Contiene cuatro columnas que incluyen el identificador del tweet, el sentimiento expresado, el autor y el contenido del tweet. En total, se tienen 40,000 registros con anotaciones para 13 emociones distintas. 

<img src="Notebook.jpg">

---

In [1]:
#import libraries
import pandas as pd
import numpy as np
import math
import spacy
nlp = spacy.load("en_core_web_sm")

import re
import string

#import NLTK
import nltk
nltk.download('punkt') #Punkt es una biblioteca que se utiliza para tokenizar frases en lenguaje natural
nltk.download('stopwords') # library "stopwords"
nltk.download('wordnet') # 
nltk.download('omw-1.4') #
nltk.download('averaged_perceptron_tagger')

from nltk.tokenize import word_tokenize
from nltk.tokenize import sent_tokenize
from nltk.stem.wordnet import WordNetLemmatizer
from nltk.sentiment.vader import SentimentIntensityAnalyzer

#import librerias de pre-procesamiento y normalizacion
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
from nltk.corpus import wordnet
from nltk.tag import pos_tag

from sklearn.preprocessing import LabelEncoder

import warnings
warnings.filterwarnings('ignore')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Lenovo\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Lenovo\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Lenovo\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\Lenovo\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\Lenovo\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


---

<div class="alert alert-block alert-info">
<b><h2> Cargar Dataset.</h2></b> 
</div>

In [2]:
emotion_data= pd.read_csv('emotion_data_clean.csv')

In [3]:
emotion_data

Unnamed: 0,tweet_id,author,review_length,sentiment_label,content
0,1956967666,wannamama,60,sadness,Layin n bed with a headache ughhhh...waitin o...
1,1956967696,coolfunky,35,sadness,Funeral ceremony...gloomy friday...
2,1956967789,czareaquino,36,enthusiasm,wants to hang out with friends SOON!
3,1956968416,xkilljoyx,86,neutral,@dannycastillo We want to trade with someone w...
4,1956968477,xxxPEACHESxxx,84,worry,Re-pinging @ghostridah14: why didn't you go to...
...,...,...,...,...,...
39099,1753918900,courtside101,29,happiness,Succesfully following Tayla!!
39100,1753919001,drapeaux,30,love,Happy Mothers Day All my love
39101,1753919005,JenniRox,123,love,Happy Mother's Day to all the mommies out ther...
39102,1753919043,ipdaman1,122,happiness,@niariley WASSUP BEAUTIFUL!!! FOLLOW ME!! PEE...


## 1. Preparación del Dataset

In [4]:
emotion_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39104 entries, 0 to 39103
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   tweet_id         39104 non-null  int64 
 1   author           39104 non-null  object
 2   review_length    39104 non-null  int64 
 3   sentiment_label  39104 non-null  object
 4   content          39104 non-null  object
dtypes: int64(2), object(3)
memory usage: 1.5+ MB


### 1.1 Verificar nulos y NaM

In [5]:
emotion_data.isnull().sum()

tweet_id           0
author             0
review_length      0
sentiment_label    0
content            0
dtype: int64

In [6]:
emotion_data.isna().sum()

tweet_id           0
author             0
review_length      0
sentiment_label    0
content            0
dtype: int64

### 1.2 Verificar datos duplicados

In [7]:
emotion_data[emotion_data.duplicated()]

Unnamed: 0,tweet_id,author,review_length,sentiment_label,content


## 2. Pre-procesamiento de los datos

### 2.1 Limpieza del texto.

In [8]:
def preproces_tweet(tweet):
    # Eliminar menciones (@nombredeusuario) y URLs
    tweet = re.sub(r'@[A-Za-z0-9]+|https?://[A-Za-z0-9./]+', '', tweet)
    
    # Convertir el texto a minúsculas
    tweet = tweet.lower()
    
    # Eliminar signos de puntuación
    tweet = re.sub('[%s]' % re.escape(string.punctuation), '', tweet)
    
    # Eliminar números
    tweet = re.sub(r'\d+', '', tweet)
    
    # Eliminar palabras comunes (stopwords)
    stop_words = stopwords.words('english') + ['u', 'im', 'c', 'n']
    words = tweet.split()
    words = [word for word in words if word not in stop_words]
    
    # Lematización (reducir las palabras a su raíz)
    lemmatizer = WordNetLemmatizer()
    words = [lemmatizer.lemmatize(word) for word in words]
    tweet = ' '.join(words)
    
    return tweet

In [9]:
# Apply the preprocess_tweet function to each element in the 'content' column
emotion_data['content'] = emotion_data['content'].apply(preproces_tweet)    

In [10]:
if '' in emotion_data['content'].values:
    print(emotion_data['content'].value_counts()[''])
else:
    print("No hay valores vacíos en 'content'.")

116


Se han identificado 116 tweets procesados que contienen únicamente '' como resultado del procesamiento del tweet. Como se mencionó anteriormente, estos tweets solo contenían menciones y enlaces, lo que podría dificultar el análisis de sentimientos al no proporcionar suficiente información sobre el contenido emocional del tweet. Se sugiere, por lo tanto, considerar la eliminación de estos tweets del conjunto de datos para mejorar la calidad del análisis de sentimientos.

In [11]:
emotion_data.drop(emotion_data[emotion_data['content'] == ''].index, inplace=True)

In [12]:
# Resetear los índices
emotion_data.reset_index(drop=True, inplace=True)

In [13]:
emotion_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 38988 entries, 0 to 38987
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   tweet_id         38988 non-null  int64 
 1   author           38988 non-null  object
 2   review_length    38988 non-null  int64 
 3   sentiment_label  38988 non-null  object
 4   content          38988 non-null  object
dtypes: int64(2), object(3)
memory usage: 1.5+ MB


### 2.2  Transformar variable a string

In [14]:
# String
emotion_data['content'] = emotion_data['content'].apply(str)   

## 3. Feature

### 3.1 Polaridad: Convertir las emociones en sentimientos

In [15]:
# Create a sentiment dictionary to map EMOTIONS to POLARITY.
sentiment_dict = {'boredom': 'negative',
                  'hate': 'negative',
                  'sadness': 'negative',
                  'anger': 'negative',
                  'worry': 'negative',
                  'relief': 'positive',
                  'happiness': 'positive',
                  'love': 'positive',
                  'enthusiasm': 'positive',
                  'neutral': 'neutral',
                  'surprise':'positive',
                  'fun': 'positive'
                 }
emotion_data['polarity_sent'] = emotion_data.sentiment_label.map(sentiment_dict)

### 3.2 Polaridad con VADER (Valence Aware Dictionary and sEntiment Reasoner)

In [16]:
def calculate_vader_sentiment(tweet):
    analyzer = SentimentIntensityAnalyzer()
    vs = analyzer.polarity_scores(tweet)
    return {
        "positive": vs["pos"],
        "neutral": vs["neu"],
        "negative": vs["neg"],
        "compound": vs["compound"],
        "polarity_vader": "positive" if vs["compound"] > 0.3 else "negative" if vs["compound"] < -0.3 else "neutral"
    }

In [17]:
# Aplica la función calculate_vader_sentiment a la columna processed_tweet de emotion_data
sentiment_data_vader = emotion_data['content'].apply(calculate_vader_sentiment)

In [18]:
# Convierte el resultado en columnas usando json_normalize
sentiment_data_vader= pd.json_normalize(sentiment_data_vader)

In [19]:
# Une sentiment_data a emotion_data
emotion_data = pd.concat([emotion_data, sentiment_data_vader], axis=1)
emotion_data.head(10) 

Unnamed: 0,tweet_id,author,review_length,sentiment_label,content,polarity_sent,positive,neutral,negative,compound,polarity_vader
0,1956967666,wannamama,60,sadness,layin bed headache ughhhhwaitin call,negative,0.0,1.0,0.0,0.0,neutral
1,1956967696,coolfunky,35,sadness,funeral ceremonygloomy friday,negative,0.0,0.444,0.556,-0.3612,negative
2,1956967789,czareaquino,36,enthusiasm,want hang friend soon,positive,0.692,0.308,0.0,0.5423,positive
3,1956968416,xkilljoyx,86,neutral,want trade someone houston ticket one,neutral,0.206,0.794,0.0,0.0772,neutral
4,1956968477,xxxPEACHESxxx,84,worry,repinging didnt go prom bc bf didnt like friend,negative,0.0,0.596,0.404,-0.5773,negative
5,1956968487,ShansBee,132,sadness,sleep thinking old friend want he married damn...,negative,0.324,0.335,0.341,-0.3182,negative
6,1956968636,mcsleazy,36,worry,hmmm,negative,0.0,1.0,0.0,0.0,neutral
7,1956969035,nic0lepaula,39,sadness,charlene love miss,negative,0.618,0.147,0.235,0.5574,positive
8,1956969172,Ingenue_Em,42,sadness,sorry least friday,negative,0.0,0.606,0.394,-0.0772,neutral
9,1956969456,feinyheiny,16,neutral,cant fall asleep,neutral,0.0,1.0,0.0,0.0,neutral


## 4 Label encoder 

In [20]:
# encoder Sentiment label
le_e = LabelEncoder()
emotion_data['sentiment_label'] = le_e.fit_transform(emotion_data['sentiment_label'])

In [21]:
print (le_e.classes_)

['anger' 'boredom' 'enthusiasm' 'fun' 'happiness' 'hate' 'love' 'neutral'
 'relief' 'sadness' 'surprise' 'worry']


In [22]:
# encoder polarity de sentiments
le_s = LabelEncoder()
emotion_data['polarity_sent'] = le_s.fit_transform(emotion_data['polarity_sent'])   

In [23]:
print (le_s.classes_)

['negative' 'neutral' 'positive']


In [24]:
# encoder polarity vader
le_v = LabelEncoder()
emotion_data['polarity_vader'] = le_v.fit_transform(emotion_data['polarity_vader'])   

In [25]:
print (le_v.classes_)

['negative' 'neutral' 'positive']


In [26]:
emotion_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 38988 entries, 0 to 38987
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   tweet_id         38988 non-null  int64  
 1   author           38988 non-null  object 
 2   review_length    38988 non-null  int64  
 3   sentiment_label  38988 non-null  int32  
 4   content          38988 non-null  object 
 5   polarity_sent    38988 non-null  int32  
 6   positive         38988 non-null  float64
 7   neutral          38988 non-null  float64
 8   negative         38988 non-null  float64
 9   compound         38988 non-null  float64
 10  polarity_vader   38988 non-null  int32  
dtypes: float64(4), int32(3), int64(2), object(2)
memory usage: 2.8+ MB


In [27]:
emotion_data.head()

Unnamed: 0,tweet_id,author,review_length,sentiment_label,content,polarity_sent,positive,neutral,negative,compound,polarity_vader
0,1956967666,wannamama,60,9,layin bed headache ughhhhwaitin call,0,0.0,1.0,0.0,0.0,1
1,1956967696,coolfunky,35,9,funeral ceremonygloomy friday,0,0.0,0.444,0.556,-0.3612,0
2,1956967789,czareaquino,36,2,want hang friend soon,2,0.692,0.308,0.0,0.5423,2
3,1956968416,xkilljoyx,86,7,want trade someone houston ticket one,1,0.206,0.794,0.0,0.0772,1
4,1956968477,xxxPEACHESxxx,84,11,repinging didnt go prom bc bf didnt like friend,0,0.0,0.596,0.404,-0.5773,0


## 4 Selección de columnas (Feature)

Se eliminaran columnas innecesarias para el estudio.

In [28]:
# Eliminar columnas que no se utilizarán en el estudio
emotion_data.drop(['tweet_id', 'author', 'review_length', 'positive', 'neutral', 'negative', 'compound'], axis=1, inplace=True)

In [29]:
# Resetear los índices
emotion_data.reset_index(drop=True, inplace=True)

In [30]:
emotion_data.head()

Unnamed: 0,sentiment_label,content,polarity_sent,polarity_vader
0,9,layin bed headache ughhhhwaitin call,0,1
1,9,funeral ceremonygloomy friday,0,0
2,2,want hang friend soon,2,2
3,7,want trade someone houston ticket one,1,1
4,11,repinging didnt go prom bc bf didnt like friend,0,0


In [31]:
# ordenar columnas
emotion_data = emotion_data.reindex(columns=['content', 'sentiment_label', 'polarity_sent', 'polarity_vader'])
emotion_data

Unnamed: 0,content,sentiment_label,polarity_sent,polarity_vader
0,layin bed headache ughhhhwaitin call,9,0,1
1,funeral ceremonygloomy friday,9,0,0
2,want hang friend soon,2,2,2
3,want trade someone houston ticket one,7,1,1
4,repinging didnt go prom bc bf didnt like friend,11,0,0
...,...,...,...,...
38983,succesfully following tayla,4,2,1
38984,happy mother day love,6,2,2
38985,happy mother day mommy woman man long youre mo...,6,2,2
38986,wassup beautiful follow peep new hit single ww...,4,2,2


In [32]:
emotion_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 38988 entries, 0 to 38987
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   content          38988 non-null  object
 1   sentiment_label  38988 non-null  int32 
 2   polarity_sent    38988 non-null  int32 
 3   polarity_vader   38988 non-null  int32 
dtypes: int32(3), object(1)
memory usage: 761.6+ KB


## 5. Guardar la data

Se crearán tres datasets diferentes en función de la clasificación de las emociones del dataset original. Estos datasets se diferenciarán por el tipo de polaridad que se les haya asignado a cada emoción.

* **Clasificacion por emociones**

In [39]:
dataset1 = emotion_data.loc[:, ['content', 'sentiment_label']]

In [40]:
dataset1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 38988 entries, 0 to 38987
Data columns (total 2 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   content          38988 non-null  object
 1   sentiment_label  38988 non-null  int32 
dtypes: int32(1), object(1)
memory usage: 457.0+ KB


In [42]:
import pickle

In [43]:
with open('dataset1.pickle', 'wb') as f:
    pickle.dump(dataset1, f)

* **Clasificacion por sentimiento**

In [44]:
dataset2 = emotion_data.loc[:, ['content', 'polarity_sent']]

In [45]:
dataset2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 38988 entries, 0 to 38987
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   content        38988 non-null  object
 1   polarity_sent  38988 non-null  int32 
dtypes: int32(1), object(1)
memory usage: 457.0+ KB


In [46]:
with open('dataset2.pickle', 'wb') as f:
    pickle.dump(dataset1, f)

* **Clasificacion por polaridad Vader**

In [47]:
dataset3 =emotion_data.loc[:, ['content', 'polarity_vader']]

In [48]:
dataset3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 38988 entries, 0 to 38987
Data columns (total 2 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   content         38988 non-null  object
 1   polarity_vader  38988 non-null  int32 
dtypes: int32(1), object(1)
memory usage: 457.0+ KB


In [49]:
with open('dataset3.pickle', 'wb') as f:
    pickle.dump(dataset1, f)