
# 📊 Proyecto de Análisis de Sentimientos de Tweets

## 🎯 Problema de Negocio

El objetivo de este proyecto es analizar los sentimientos de los tweets, identificando si los mensajes son positivos o negativos. Utilizando un conjunto de datos de 1,600,000 tweets preprocesados, se pretende generar diversas características que se utilizarán para entrenar un modelo de clasificación.

## ❓ Preguntas Clave

- **¿Qué variables pueden ser clave para la detección del sentimiento?**
- **¿Qué tipo de modelos pueden servir para detectar el sentimiento en los tweets?**
- **¿Qué métricas se pueden utilizar para evaluar el desempeño del modelo?**

In [None]:
import pandas as pd
import re
import string
import emoji
from nltk.corpus import stopwords
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import nltk
import math
from textblob import TextBlob
nltk.download('stopwords')

# Cargar el dataset de tweets
df = pd.read_csv("training_1600000_processed_noemoticon.csv", encoding='latin-1')
df.columns = ['target', 'ids', 'date', 'flag', 'user', 'text']
df

Unnamed: 0,target,ids,date,flag,user,text
0,0,1467810672,Mon Apr 06 22:19:49 PDT 2009,NO_QUERY,scotthamilton,is upset that he can't update his Facebook by ...
1,0,1467810917,Mon Apr 06 22:19:53 PDT 2009,NO_QUERY,mattycus,@Kenichan I dived many times for the ball. Man...
2,0,1467811184,Mon Apr 06 22:19:57 PDT 2009,NO_QUERY,ElleCTF,my whole body feels itchy and like its on fire
3,0,1467811193,Mon Apr 06 22:19:57 PDT 2009,NO_QUERY,Karoli,"@nationwideclass no, it's not behaving at all...."
4,0,1467811372,Mon Apr 06 22:20:00 PDT 2009,NO_QUERY,joy_wolf,@Kwesidei not the whole crew
...,...,...,...,...,...,...
1599994,4,2193601966,Tue Jun 16 08:40:49 PDT 2009,NO_QUERY,AmandaMarie1028,Just woke up. Having no school is the best fee...
1599995,4,2193601969,Tue Jun 16 08:40:49 PDT 2009,NO_QUERY,TheWDBoards,TheWDB.com - Very cool to hear old Walt interv...
1599996,4,2193601991,Tue Jun 16 08:40:49 PDT 2009,NO_QUERY,bpbabe,Are you ready for your MoJo Makeover? Ask me f...
1599997,4,2193602064,Tue Jun 16 08:40:49 PDT 2009,NO_QUERY,tinydiamondz,Happy 38th Birthday to my boo of alll time!!! ...


El dataset contiene texto que se puede considerar como "sucio", es por ello que partamos de crear una función que pueda limpiar este texto eliminando URLs, menciones, emojis y caracteres especiales.
Recuerda que la limpieza de texto es crucial para que el análisis sea más preciso.

In [None]:
def clean_text(text):
    # Aquí el alumno debe eliminar URLs del texto usando expresiones regulares.
    # También se debe eliminar las menciones de otros usuarios en el texto (@usuario).
    # Es importante eliminar los emojis y convertir todo el texto a minúsculas.
    pass
df['cleaned_text'] = df['text'].apply(clean_text)

Longitud del tweet: se debe calcular la longitud del texto del tweet en su versión limpia (número de caracteres).
Esta característica es útil porque podría revelar patrones sobre la longitud y el contenido de los tweets.

In [None]:
def tweet_length(text):
    # Aquí el alumno debe devolver la longitud del texto, es decir, cuántos caracteres tiene el tweet.
    pass
df['cleaned_text'] = df['text'].apply(clean_text)

Contar emojis: en algunos casos, los emojis pueden representar emociones, por lo tanto, contamos cuántos emojis hay en el tweet.
La función debe recorrer cada carácter del texto y contar cuántos son emojis.

In [None]:
def count_emojis(text):
    # El alumno debe contar cuántos emojis aparecen en el tweet original.
    pass
df['emoji_count'] = df['text'].apply(count_emojis)

Contar signos de exclamación e interrogación: los tweets con muchos signos de exclamación o interrogación podrían indicar emoción o sorpresa.

In [None]:
def exclamation_count(text):
    # Contar cuántos signos de exclamación (!) hay en el tweet.
    pass

def question_count(text):
    # Contar cuántos signos de interrogación (?) hay en el tweet.
    pass

df['exclamation_count'] = df['text'].apply(exclamation_count)
df['question_count'] = df['text'].apply(question_count)

## Es tu turno! ¿Qué otras variables se te ocurren para poder construir un modelo que pueda predecir el sentimiento del tweet?

**Existen librerías que ya detectan los sentimientos de texto, crees que debas de usarlas?**

In [None]:
df.to_csv('datatotal.csv')