<a href="https://colab.research.google.com/github/Newball12/tuplas2/blob/main/P4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [64]:
from tkinter.constants import X
import pandas as pd
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk.sentiment.vader import SentimentIntensityAnalyzer
import string

# Descargar recursos de NLTK si es necesario
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('vader_lexicon')

# Cargar los datos
df = pd.read_csv('tweets_dataset.csv')

# Función para limpiar y tokenizar un tweet
def limpiar_tokenizar(texto):
    # Tokenización
    tokens = word_tokenize(texto)

    # Convertir a minúsculas, eliminar stop words, puntuación y números
    stop_words = set(stopwords.words('spanish'))
    tokens = [token.lower() for token in tokens if token not in stop_words and token not in string.punctuation and not token.isdigit()]

    # Lematización
    lemmatizer = WordNetLemmatizer()
    tokens = [lemmatizer.lemmatize(token) for token in tokens]

    return tokens

# Función para analizar el sentimiento
def analizar_sentimiento(texto):
    sia = SentimentIntensityAnalyzer()
    sentiment = sia.polarity_scores(texto)
    return sentiment['compound']

# Aplicar la función de limpieza y tokenización
df['tokens'] = df["texto"].apply(limpiar_tokenizar)

# Crear una nueva columna con los tokens unidos por espacios
df['texto_limpio'] = df['tokens'].apply(lambda x: ' '.join(x))

# Aplicar la función de análisis de sentimiento
df['sentimiento'] = df['texto_limpio'].apply(analizar_sentimiento)

# Clasificar los sentimientos
df['polaridad'] = df['sentimiento'].apply(lambda x: 'positivo' if x > 0.05 else ('negativo' if x < -0.05 else 'neutral'))

# Mostrar los primeros 5 resultados
print(df.head())


# Crear un DataFrame con los resultados del análisis de sentimiento
resultados_sentimiento = df['polaridad'].value_counts().reset_index()
resultados_sentimiento.columns = ['Polaridad_sentimientos','Conteo']

# Calcular porcentajes y agregarlos al DataFrame
resultados_sentimiento['Porcentaje'] = (resultados_sentimiento['Conteo'] / resultados_sentimiento['Conteo'].sum()) * 100
resultados_sentimiento['Porcentaje'] = resultados_sentimiento['Porcentaje'].map('{:.2f}%'.format)

# Mostrar la tabla
print(resultados_sentimiento)






[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package vader_lexicon to /root/nltk_data...
[nltk_data]   Package vader_lexicon is already up-to-date!


   id                                              texto                fecha  \
0   1       ¡Me encanta el nuevo producto! Es increíble.  2023-12-05 11:58:00   
1   2  El producto no funciona como esperaba. Muy dec...  2023-12-19 21:44:00   
2   3  El servicio al cliente fue pésimo, no volveré ...  2023-12-29 11:56:00   
3   4  ¡Es un excelente producto, lo recomiendo total...  2023-12-04 11:53:00   
4   5    Podría ser mejor, pero en general es aceptable.  2023-11-06 10:18:00   

                                              tokens  \
0      [¡me, encanta, nuevo, producto, e, increíble]   
1  [el, producto, funciona, esperaba, muy, decepc...   
2  [el, servicio, cliente, pésimo, volveré, comprar]   
3  [¡es, excelente, producto, recomiendo, totalme...   
4           [podría, ser, mejor, general, aceptable]   

                                     texto_limpio  sentimiento polaridad  
0          ¡me encanta nuevo producto e increíble          0.0   neutral  
1  el producto funciona es