# Prueba un conjunto de datos diferente

## Instrucciones
Ahora que se ha aprendido acerca del uso de la libreria NLTK para asignar sentimiento al texto, prueba un conjunto de datos diferente. Probablemente necesitarás hacer algo más de procesamiento de datos, por lo cual, crear un notebook y documenta tu proceso de pensamiento.

In [2]:
import pandas as pd
import time
import numpy as np

DataTweets= ('./Data/tweets.csv')
df = pd.read_csv(DataTweets, encoding='ISO-8859-1')
df.info()
df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1048575 entries, 0 to 1048574
Data columns (total 6 columns):
 #   Column  Non-Null Count    Dtype 
---  ------  --------------    ----- 
 0   Target  1048575 non-null  int64 
 1   ID      1048575 non-null  int64 
 2   Date    1048575 non-null  object
 3   flag    1048575 non-null  object
 4   User    1048575 non-null  object
 5   Text    1048575 non-null  object
dtypes: int64(2), object(4)
memory usage: 48.0+ MB


Unnamed: 0,Target,ID,Date,flag,User,Text
0,0,1467810672,Mon Apr 06 22:19:49 PDT 2009,NO_QUERY,scotthamilton,is upset that he can't update his Facebook by ...
1,0,1467810917,Mon Apr 06 22:19:53 PDT 2009,NO_QUERY,mattycus,@Kenichan I dived many times for the ball. Man...
2,0,1467811184,Mon Apr 06 22:19:57 PDT 2009,NO_QUERY,ElleCTF,my whole body feels itchy and like its on fire
3,0,1467811193,Mon Apr 06 22:19:57 PDT 2009,NO_QUERY,Karoli,"@nationwideclass no, it's not behaving at all...."
4,0,1467811372,Mon Apr 06 22:20:00 PDT 2009,NO_QUERY,joy_wolf,@Kwesidei not the whole crew
...,...,...,...,...,...,...
1048570,4,1960186342,Fri May 29 07:33:44 PDT 2009,NO_QUERY,Madelinedugganx,My GrandMa is making Dinenr with my Mum
1048571,4,1960186409,Fri May 29 07:33:43 PDT 2009,NO_QUERY,OffRoad_Dude,Mid-morning snack time... A bowl of cheese noo...
1048572,4,1960186429,Fri May 29 07:33:44 PDT 2009,NO_QUERY,Falchion,@ShaDeLa same here say it like from the Termi...
1048573,4,1960186445,Fri May 29 07:33:44 PDT 2009,NO_QUERY,jonasobsessedx,@DestinyHope92 im great thaanks wbuu?


In [3]:
pip install nltk




Importamos y descargamos los recursos de la libreria NLTK

In [4]:
import nltk
from nltk.sentiment.vader import SentimentIntensityAnalyzer
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

In [5]:
nltk.download('vader_lexicon')
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package vader_lexicon to
[nltk_data]     C:\Users\HP\AppData\Roaming\nltk_data...
[nltk_data]   Package vader_lexicon is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\HP\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\HP\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

Antes de realizar el análisis de sentimientos, es una buena práctica realizar algunas tareas de preprocesamiento para limpiar y preparar los textos de tus tweets. Algunas de estas tareas comunes incluyen la tokenización y la eliminación de palabras vacías (stopwords).

In [6]:
# Tokenización: dividir el texto en palabras individuales
df['Text'] = df['Text'].apply(word_tokenize)

# Eliminación de stopwords: eliminar palabras comunes que no aportan mucho significado al análisis
stop_words = set(stopwords.words('english'))
df['Text'] = df['Text'].apply(lambda x: [word for word in x if word.lower() not in stop_words])

Ahora podemos proceder a realizar el análisis de sentimientos en los textos de los tweets. Para esto, puedes usar diferentes enfoques y herramientas, pero en esta ocasión, utilizaré el analizador de sentimientos VADER (Valence Aware Dictionary and sEntiment Reasoner) de NLTK, que es especialmente útil para textos cortos y de redes sociales como los tweets.

In [7]:
# Cargar solo una muestra del conjunto de datos
sample_size = 10000  # Tamaño de la muestra
df_sample = df.sample(n=sample_size, random_state=42)  # Muestreo aleatorio

In [8]:
from nltk.sentiment.vader import SentimentIntensityAnalyzer

# Inicializar el analizador de sentimientos
sid = SentimentIntensityAnalyzer()

In [10]:
def analyze_sentiment(text):
    if isinstance(text, list):
        # Si es una lista de textos, aplicar la función a cada texto individualmente
        return [analyze_sentiment(t) for t in text]
    else:
        # Si es un solo texto, calcular el sentimiento usando VADER
        scores = sid.polarity_scores(text)
        if scores['compound'] > 0.05:
            return 'Positivo'
        elif scores['compound'] < -0.05:
            return 'Negativo'
        else:
            return 'Neutral'
            
# Aplicar la función de análisis de sentimientos a la columna 'Text' de la muestra
df_sample['Sentiment'] = df_sample['Text'].apply(analyze_sentiment)

# Contar la cantidad de tweets con cada tipo de sentimiento
sentiment_counts = df_sample['Sentiment'].value_counts()

sentiment_counts

Sentiment
[Neutral, Neutral, Neutral, Neutral, Neutral]                                                                                                                                                                                                            275
[Neutral, Neutral, Neutral, Neutral, Neutral, Neutral]                                                                                                                                                                                                   246
[Neutral, Neutral, Neutral, Neutral]                                                                                                                                                                                                                     239
[Neutral, Neutral, Neutral, Neutral, Neutral, Neutral, Neutral]                                                                                                                                                                        

## Conclusión
Con la elaboracion de este análisis podemos comparar los sentimientos expresados en diferentes categorías, como por ejemplo, por usuario, por tema o por ubicación geográfica. Esto nos ayuda a identificar si hay alguna variación en los sentimientos expresados por diferentes grupos.
Tambien podemos analizar cómo eventos específicos afectan los sentimientos expresados en los tweets. Por ejemplo, podríamos observar si un evento negativo causa un aumento en los sentimientos negativos expresados en Twitter.
En resumen, el análisis de sentimientos nos proporciona información valiosa sobre cómo se sienten las personas en relación con ciertos temas, eventos o situaciones.