In [18]:
import warnings
warnings.filterwarnings("ignore")

# Inicialización

Importamos las librerías que nos servirán para poder procesar, visualizar y explorar nuestros datos de manera efectiva, la librería `pandas`, `numpy`, `textblob`,`nltk`.

In [19]:
import pandas as pd
import numpy as np
from textblob import TextBlob
import nltk

%load_ext autoreload
%autoreload 2

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


# Extracción de los datos

Para realizar los análisis requeridos, extraeremos los datos esenciales del conjunto `data_reviews`. Estos datos nos permitirán realizar los análisis requeridos.


El conjunto de datos **`data_reviews`** contiene información sobre usuarios de Steam que realizan reviews (reseñas que consisten en comentarios) de los juegos que consumen, incluyendo identificadores únicos, URL de perfiles, y fechas de posteo, ediciones, estadísticas de utilidad y recomendaciones sobre juegos específicos

In [20]:
data_reviews = pd.read_csv('data_reviews_cleaned.csv')

In [21]:
data_reviews.head(3)

Unnamed: 0,user_id,user_url,reviews_posted,reviews_item_id,reviews_helpful,reviews_recommend,reviews_review,reviews_year
0,76561197970982479,http://steamcommunity.com/profiles/76561197970...,2011-11-05,1250,No ratings yet,True,Simple yet with great replayability. In my opi...,2011
1,js41637,http://steamcommunity.com/id/js41637,2014-06-24,251610,15 of 20 people (75%) found this review helpful,True,I know what you think when you see this title ...,2014
2,evcentric,http://steamcommunity.com/id/evcentric,,248820,No ratings yet,True,A suitably punishing roguelike platformer. Wi...,Dato no disponible


# Análisis de Sentimientos

En la fase de análisis de sentimientos, exploramos la columna crítica de nuestro conjunto de datos en data_reviews: 'reviews'. Nuestro objetivo central es crear una nueva columna llamada 'sentiment_analysis' que reemplace a la columna original 'reviews_review'. 

Buscamos asignar puntuaciones numéricas que indiquen si el comentario:
- Negativo ('0') 
- Neutro o carece de reseña ('1') 
- Positivo ('2')

Para lograrlo, aprovechamos TextBlob, una biblioteca de procesamiento de lenguaje natural en Python, que realiza análisis de sentimientos de manera ágil.

La metodología utilizada implica la toma de un texto de revisión como entrada, utilizando `TextBlob` para calcular la polaridad del sentimiento y luego categorizar la revisión como negativa, neutral o positiva según la polaridad calculada. Los valores de polaridad asignados por TextBlob abarcan un espectro desde [-1] para negativo hasta [1] para positivo, con [0] indicando neutralidad. En este caso, hemos utilizado las polaridades por defecto del modelo, lo que nos brinda un enfoque básico pero efectivo para comprender el sentimiento expresado en las reseñas de los usuarios.

In [22]:
# Función para asignar polaridades
def assign_sentiment(text):
    if not isinstance(text, str):
        return 1  # Neutral para valores no string

    # Crear un objeto TextBlob para el texto
    analysis = TextBlob(text)

    # Obtener la polaridad del sentimiento
    polarity = analysis.sentiment.polarity
    
    # Clasificar el sentimiento basado en la polaridad
    if polarity > 0.1:
        return 2  # Positivo
    elif polarity < -0.1:
        return 0  # Negativo

    return 1  # Neutral

# Aplicar la función a la columna 'reviews_review' utilizando una función lambda
data_reviews['sentiment_analysis'] = data_reviews['reviews_review'].apply(lambda x: assign_sentiment(x))


Comenzamos explorando los primeros 15 comentarios de nuestra base de datos. Para evaluar el sentimiento de estos comentarios, confiamos en nuestra propia interpretación y observación de las similitudes con las categorizaciones proporcionadas por la biblioteca de análisis de sentimiento TextBlob.

In [23]:
for index, row in data_reviews.head(15).iterrows():
    review_text = row['reviews_review']
    sentiment = row['sentiment_analysis']
    print(f"Review {index}:")
    print(f"Texto del Review: {review_text}")
    print(f"Análisis de Sentimiento (0-Negativo, 1-Neutral, 2-Positivo): {sentiment}")
    print("\n")

Review 0:
Texto del Review: Simple yet with great replayability. In my opinion does "zombie" hordes and team work better than left 4 dead plus has a global leveling system. Alot of down to earth "zombie" splattering fun for the whole family. Amazed this sort of FPS is so rare.
Análisis de Sentimiento (0-Negativo, 1-Neutral, 2-Positivo): 2


Review 1:
Texto del Review: I know what you think when you see this title "Barbie Dreamhouse Party" but do not be intimidated by it's title, this is easily one of my GOTYs. You don't get any of that cliche game mechanics that all the latest games have, this is simply good core gameplay. Yes, you can't 360 noscope your friends, but what you can do is show them up with your bad ♥♥♥ dance moves and put them to shame as you show them what true fashion and color combinations are.I know this game says for kids but, this is easily for any age range and any age will have a blast playing this.8/8
Análisis de Sentimiento (0-Negativo, 1-Neutral, 2-Positivo): 2

Continuando con nuestra exploración de los comentarios en nuestra base de datos, nos enfocamos en los últimos 15 comentarios. Al igual que en la etapa anterior, analizamos estos comentarios en función de nuestras percepciones y comparaciones con las categorizaciones proporcionadas por la biblioteca de análisis de sentimiento TextBlob.

In [24]:
for index, row in data_reviews.tail(10).iterrows():
    review_text = row['reviews_review']
    sentiment = row['sentiment_analysis']
    print(f"Review {index}:")
    print(f"Texto del Review: {review_text}")
    print(f"Análisis de Sentimiento (0-Negativo, 1-Neutral, 2-Positivo): {sentiment}")
    print("\n")


Review 58159:
Texto del Review: I wanted this game to be Controller Supported but anyways this is a good game 7/10 [8/10 for people who are addicts to Trucks and Simulators]
Análisis de Sentimiento (0-Negativo, 1-Neutral, 2-Positivo): 1


Review 58160:
Texto del Review: ,
Análisis de Sentimiento (0-Negativo, 1-Neutral, 2-Positivo): 1


Review 58161:
Texto del Review: A first person game which has no guns, no linear story progression ... and just try to jump in this game, I dare you.Everyone must play this game at some point in their life, for it will consume the rest of it.15/10
Análisis de Sentimiento (0-Negativo, 1-Neutral, 2-Positivo): 0


Review 58162:
Texto del Review: Its a great game if your up for a challenge or just want to play a great game
Análisis de Sentimiento (0-Negativo, 1-Neutral, 2-Positivo): 2


Review 58163:
Texto del Review: Normally I would hardly play a lego based game but this one is a bit different as it is a sandbox lego game where the limit is your imaginatio

Optamos tambien por seleccionar al azar 20 revisiones de nuestra base de datos. La selección aleatoria garantizó que obtuviéramos una muestra diversa y representativa de comentarios de usuarios sin sesgos preexistentes.

In [25]:
# Seleccionar 20 reviews aleatorias
random_reviews = data_reviews.sample(n=20, random_state=123)

# Mostrar las reviews seleccionadas
for index, row in random_reviews.iterrows():
    review_text = row['reviews_review']
    sentiment = row['sentiment_analysis']
    print(f"Review {index}:")
    print(f"Texto del Review: {review_text}")
    print(f"Análisis de Sentimiento (0-Negativo, 1-Neutral, 2-Positivo): {sentiment}")
    print("\n")

Review 25813:
Texto del Review: WAIT UNTIL ITS ON SALE
Análisis de Sentimiento (0-Negativo, 1-Neutral, 2-Positivo): 1


Review 31082:
Texto del Review: what the ♥♥♥♥ is wrong with the match queues?? i can't find a match as a 2-man without attempting at least 15 times. fix this ♥♥♥♥ please
Análisis de Sentimiento (0-Negativo, 1-Neutral, 2-Positivo): 0


Review 37938:
Texto del Review: Best game 10 out of 10 would tap garry again ;)
Análisis de Sentimiento (0-Negativo, 1-Neutral, 2-Positivo): 2


Review 23613:
Texto del Review: This game is definitely my favourite game. It is also undoubtably Telltale's best game. The style of game this is makes it amazing, it gives you a sense of urgency as you don't have much time to decide on life or death situations. This game offers so many possiblities for different storylines it makes you want to play it as many times as you can to see what is different. Your choices decide how the ending goes down but what choices you make also don't effect what 

Para enriquecer aún más nuestro proceso de análisis de sentimiento, decidimos llevar a cabo la prueba de análisis de sentimiento utilizando la biblioteca `NLTK` y luego comparar los resultados con los obntenidos utilizando la libreria de TextBlob

In [26]:
from nltk.sentiment.vader import SentimentIntensityAnalyzer

# Descargar los recursos necesarios para NLTK (puedes hacerlo una vez)
# nltk.download('vader_lexicon')

# Crear un objeto SentimentIntensityAnalyzer
sia = SentimentIntensityAnalyzer()

# Función para asignar polaridades
def assign_sentiment(text):
    if not isinstance(text, str):
        return 1  # Neutral para valores no string

    # Obtener la puntuación de sentimiento
    sentiment = sia.polarity_scores(text)
    
    # Clasificar el sentimiento basado en la puntuación compuesta
    compound_score = sentiment['compound']
    if compound_score > 0.3:
        return 2  # Positivo
    elif compound_score < -0.3:
        return 0  # Negativo

    return 1  # Neutral

# Aplicar la función a la columna 'reviews_review' utilizando una función lambda
data_reviews['sentiment_analysis'] = data_reviews['reviews_review'].apply(lambda x: assign_sentiment(x))




Realizamos las mismas evaluaciones que con la libreria textblob:

Evaluación de las Primeras 15 Revisiones

In [27]:
for index, row in data_reviews.head(15).iterrows():
    review_text = row['reviews_review']
    sentiment = row['sentiment_analysis']
    print(f"Review {index}:")
    print(f"Texto del Review: {review_text}")
    print(f"Análisis de Sentimiento (0-Negativo, 1-Neutral, 2-Positivo): {sentiment}")
    print("\n")


Review 0:
Texto del Review: Simple yet with great replayability. In my opinion does "zombie" hordes and team work better than left 4 dead plus has a global leveling system. Alot of down to earth "zombie" splattering fun for the whole family. Amazed this sort of FPS is so rare.
Análisis de Sentimiento (0-Negativo, 1-Neutral, 2-Positivo): 2


Review 1:
Texto del Review: I know what you think when you see this title "Barbie Dreamhouse Party" but do not be intimidated by it's title, this is easily one of my GOTYs. You don't get any of that cliche game mechanics that all the latest games have, this is simply good core gameplay. Yes, you can't 360 noscope your friends, but what you can do is show them up with your bad ♥♥♥ dance moves and put them to shame as you show them what true fashion and color combinations are.I know this game says for kids but, this is easily for any age range and any age will have a blast playing this.8/8
Análisis de Sentimiento (0-Negativo, 1-Neutral, 2-Positivo): 2

Evaluación de las Últimas 15 Revisiones

In [28]:
for index, row in data_reviews.tail(15).iterrows():
    review_text = row['reviews_review']
    sentiment = row['sentiment_analysis']
    print(f"Review {index}:")
    print(f"Texto del Review: {review_text}")
    print(f"Análisis de Sentimiento (0-Negativo, 1-Neutral, 2-Positivo): {sentiment}")
    print("\n")


Review 58154:
Texto del Review: I'll link you to something that will... encourage your urge to buy the game..https://www.youtube.com/watch?v=nuHfVn_cfHU
Análisis de Sentimiento (0-Negativo, 1-Neutral, 2-Positivo): 2


Review 58155:
Texto del Review: Duh...
Análisis de Sentimiento (0-Negativo, 1-Neutral, 2-Positivo): 1


Review 58156:
Texto del Review: Recomendo esse jogo para todos e realmente muito bom
Análisis de Sentimiento (0-Negativo, 1-Neutral, 2-Positivo): 1


Review 58157:
Texto del Review: Animal watching/walking sim 10/10
Análisis de Sentimiento (0-Negativo, 1-Neutral, 2-Positivo): 1


Review 58158:
Texto del Review: Nice fast paced fps game.
Análisis de Sentimiento (0-Negativo, 1-Neutral, 2-Positivo): 2


Review 58159:
Texto del Review: I wanted this game to be Controller Supported but anyways this is a good game 7/10 [8/10 for people who are addicts to Trucks and Simulators]
Análisis de Sentimiento (0-Negativo, 1-Neutral, 2-Positivo): 2


Review 58160:
Texto del Review: ,
A

Análisis de 20 Revisiones Seleccionadas Aleatoriamente

In [29]:
# Seleccionar 20 revisiones aleatorias
random_reviews = data_reviews.sample(n=20, random_state=123)

# Mostrar las revisiones seleccionadas
for index, row in random_reviews.iterrows():
    review_text = row['reviews_review']
    sentiment = row['sentiment_analysis']
    print(f"Review {index}:")
    print(f"Texto del Review: {review_text}")
    print(f"Análisis de Sentimiento (0-Negativo, 1-Neutral, 2-Positivo): {sentiment}")
    print("\n")


Review 25813:
Texto del Review: WAIT UNTIL ITS ON SALE
Análisis de Sentimiento (0-Negativo, 1-Neutral, 2-Positivo): 1


Review 31082:
Texto del Review: what the ♥♥♥♥ is wrong with the match queues?? i can't find a match as a 2-man without attempting at least 15 times. fix this ♥♥♥♥ please
Análisis de Sentimiento (0-Negativo, 1-Neutral, 2-Positivo): 1


Review 37938:
Texto del Review: Best game 10 out of 10 would tap garry again ;)
Análisis de Sentimiento (0-Negativo, 1-Neutral, 2-Positivo): 2


Review 23613:
Texto del Review: This game is definitely my favourite game. It is also undoubtably Telltale's best game. The style of game this is makes it amazing, it gives you a sense of urgency as you don't have much time to decide on life or death situations. This game offers so many possiblities for different storylines it makes you want to play it as many times as you can to see what is different. Your choices decide how the ending goes down but what choices you make also don't effect what 

Tras completar las tres etapas con ambas bibliotecas, ajustando los umbrales de puntuacion para clasificar los sentientos en las distintas categorias, llegamos a varias conclusiones importantes. Aunque ambas bibliotecas proporcionaron categorizaciones de sentimiento, observamos que NLTK demostró ser más consistente en sus puntuaciones de polaridad y categorizaciones de sentimiento en comparación con TextBlob. TextBlob mostró algunas discrepancias en la clasificación de revisiones que podrían considerarse negativas como positivas, y viceversa. En contraste, NLTK proporcionó puntuaciones de polaridad más coherentes y precisas, lo que lo convirtió en nuestra elección preferida para el análisis de sentimiento.

Procedemos a eliminar la columna 'reviews_review' de tu DataFrame data_reviews

In [30]:
data_reviews.drop('reviews_review', axis=1, inplace=True)


In [31]:
data_reviews

Unnamed: 0,user_id,user_url,reviews_posted,reviews_item_id,reviews_helpful,reviews_recommend,reviews_year,sentiment_analysis
0,76561197970982479,http://steamcommunity.com/profiles/76561197970...,2011-11-05,1250,No ratings yet,True,2011,2
1,js41637,http://steamcommunity.com/id/js41637,2014-06-24,251610,15 of 20 people (75%) found this review helpful,True,2014,2
2,evcentric,http://steamcommunity.com/id/evcentric,,248820,No ratings yet,True,Dato no disponible,2
3,doctr,http://steamcommunity.com/id/doctr,2013-10-14,250320,2 of 2 people (100%) found this review helpful,True,2013,2
4,maplemage,http://steamcommunity.com/id/maplemage,2014-04-15,211420,35 of 43 people (81%) found this review helpful,True,2014,1
...,...,...,...,...,...,...,...,...
58164,SKELETRONPRIMEISOP,http://steamcommunity.com/id/SKELETRONPRIMEISOP,2014-08-15,440,No ratings yet,True,2014,2
58165,76561198141079508,http://steamcommunity.com/profiles/76561198141...,2014-08-02,304930,No ratings yet,True,2014,2
58166,ShadowYT100,http://steamcommunity.com/id/ShadowYT100,2015-07-31,265630,No ratings yet,True,2015,2
58167,bestcustomurlevermade,http://steamcommunity.com/id/bestcustomurlever...,2015-12-20,304050,No ratings yet,True,2015,2


In [32]:
data_reviews['reviews_recommend'].value_counts()

True     51459
False     6710
Name: reviews_recommend, dtype: int64

In [33]:
data_reviews['sentiment_analysis'].value_counts()

2    33758
1    17262
0     7149
Name: sentiment_analysis, dtype: int64

# Carga del Conjunto de Datos Transformado
En esta etapa, cargaremos el conjunto de datos transformado y depurado, el cual hemos nombrado "sentiment_analysis.csv". Este archivo refleja nuestro conjunto de datos preparado y optimizado para análisis y modelado de datos

In [34]:
# Especifica el nombre del archivo
nombre_del_archivo = 'data_reviews_sentiment_analysis.csv'

# Guarda el DataFrame en el archivo CSV
data_reviews.to_csv(nombre_del_archivo, index=False, encoding='utf-8')
print(f'Se ha guardado el archivo {nombre_del_archivo} en la misma carpeta.')

Se ha guardado el archivo data_reviews_sentiment_analysis.csv en la misma carpeta.
