EMPEZAR

In [13]:
import pandas as pd
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk.sentiment import SentimentIntensityAnalyzer

# Descargar recursos necesarios
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

# Inicialización de herramientas
stop_words = set(stopwords.words('english'))
lemmatizer = WordNetLemmatizer()
sia = SentimentIntensityAnalyzer()

def preprocesar_texto(texto):
    # Tokenización
    tokens = word_tokenize(texto.lower())
    
    # Eliminación de stopwords
    tokens_sin_stopwords = [word for word in tokens if word not in stop_words and word.isalpha()]
    
    # Lematización
    tokens_lemmatized = [lemmatizer.lemmatize(word) for word in tokens_sin_stopwords]
    
    return " ".join(tokens_lemmatized)

def analizar_sentimiento(texto, calificacion):
    # Análisis de sentimiento del texto con VADER
    puntajes = sia.polarity_scores(texto)
    sentimiento_texto = 'neutral'  # Valor predeterminado
    if puntajes['compound'] >= 0.05:
        sentimiento_texto = 'positiva'
    elif puntajes['compound'] <= -0.05:
        sentimiento_texto = 'negativa'

    # Análisis de sentimiento basado en la calificación
    if calificacion in [4, 5]:
        sentimiento_calificacion = 'positiva'
    elif calificacion == 3:
        sentimiento_calificacion = 'neutral'
    else:
        sentimiento_calificacion = 'negativa'

    # Combinar ambos análisis de sentimientos
    if sentimiento_texto == sentimiento_calificacion:
        return sentimiento_texto
    else:
        return sentimiento_texto  # Priorizar el sentimiento del texto

def procesar_datos(df):
    # Aplicar preprocesamiento y análisis de sentimientos a cada reseña
    df['processed_text'] = df['reviewText'].apply(preprocesar_texto)
    df['sentimientos'] = df.apply(lambda row: analizar_sentimiento(row['processed_text'], row['overall']), axis=1)
    return df

# Ejemplo de uso con el DataFrame
df = pd.read_json("data/web_reviews.json")
df = procesar_datos(df)


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Ikasle\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Ikasle\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Ikasle\AppData\Roaming\nltk_data...


LookupError: 
**********************************************************************
  Resource [93mpunkt_tab[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nltk.download('punkt_tab')
  [0m
  For more information see: https://www.nltk.org/data.html

  Attempted to load [93mtokenizers/punkt_tab/english/[0m

  Searched in:
    - 'C:\\Users\\Ikasle/nltk_data'
    - 'c:\\Users\\Ikasle\\miniconda3\\envs\\saa2425\\nltk_data'
    - 'c:\\Users\\Ikasle\\miniconda3\\envs\\saa2425\\share\\nltk_data'
    - 'c:\\Users\\Ikasle\\miniconda3\\envs\\saa2425\\lib\\nltk_data'
    - 'C:\\Users\\Ikasle\\AppData\\Roaming\\nltk_data'
    - 'C:\\nltk_data'
    - 'D:\\nltk_data'
    - 'E:\\nltk_data'
**********************************************************************
