# Sentiment Analysis

- Sentiment Analysis toma como parámetro un año particular, y devuelve una lista con la cantidad de registros de reseñas de usuarios que se encuentren categorizados con un análisis de sentimiento.


In [29]:
import pandas as pd
import os

path_reviews = os.path.join('..','data','clear','user_reviews.csv.gz')
path_steam_games = os.path.join('..','data','clear','steam_games.csv.gz')


## Carga de data

In [30]:
## Cargamos la data necesaria para solucionar este problema.
# steam_colums = ['id','app_name']
steam_colums = ['id','release_year']
steam_games = pd.read_csv(path_steam_games, usecols = steam_colums)


## renombraremos la columna id por steam_id
steam_games.rename(columns={'id':'steam_id'}, inplace=True)


# reviews_cols = ['item_id', 'sentiment_analysis', 'recommend', 'year_posted']
reviews_cols = ['item_id', 'sentiment_analysis']
user_reviews = pd.read_csv(path_reviews, compression='gzip',usecols=reviews_cols,lineterminator='\n')


In [31]:
steam_games.head(5)

Unnamed: 0,steam_id,release_year
0,761140.0,2018
1,643980.0,2018
2,670290.0,2017
3,767400.0,2017
4,773570.0,2017


In [32]:
user_reviews.head(5)

Unnamed: 0,item_id,sentiment_analysis
0,1250,2
1,22200,1
2,43110,2
3,251610,2
4,227300,2


In [33]:
steam_reviews = steam_games.merge(user_reviews,
                              left_on='steam_id', 
                              right_on= 'item_id',
                              how='inner').drop(columns=['steam_id','item_id'])

In [34]:
steam_reviews.head(5)

Unnamed: 0,release_year,sentiment_analysis
0,1998,1
1,1998,0
2,1998,1
3,1998,2
4,1998,2


In [35]:
tabla_endpoint_5 = steam_reviews.groupby('release_year')['sentiment_analysis'].value_counts().unstack(fill_value=0).reset_index()

In [36]:
tabla_endpoint_5

sentiment_analysis,release_year,0,1,2
0,1989,0,0,1
1,1990,1,0,4
2,1991,0,0,1
3,1992,1,0,2
4,1993,1,1,2
5,1994,1,3,5
6,1995,3,3,9
7,1996,0,3,1
8,1997,4,9,28
9,1998,10,28,45


**Exportaremos esta tabla en un archivo csv, con el fin de optimizar la consulta final**
- Realizando este proceso la función consumida por la api, no realizaŕa procesos innecesarios.

## Cargar de Data

In [37]:
path_endpoint_5 = os.path.join('..','data','clear','05_sentyment_analysis.csv.gz')

tabla_endpoint_5.to_csv(path_endpoint_5,compression='gzip',index=False)

## Lectura de tabla consulta

In [38]:
table_5 = pd.read_csv(path_endpoint_5)

In [39]:
table_5

Unnamed: 0,release_year,0,1,2
0,1989,0,0,1
1,1990,1,0,4
2,1991,0,0,1
3,1992,1,0,2
4,1993,1,1,2
5,1994,1,3,5
6,1995,3,3,9
7,1996,0,3,1
8,1997,4,9,28
9,1998,10,28,45


## Construcción de la consulta
- A continuación vamos a realizar las consultas necesarias para encontrar.
la cantidad de reseñas de usuarios que se encuentran categorizadas con un analisis de sentimiento.

- Para responder este problema vamos a ejemplificar la consulta inspecciónar con un año particular, en este caso **2010**, luego vamos a construir las consultas para este año particular

In [40]:
year = 2010

In [41]:
table_5[table_5['release_year'] == year]

Unnamed: 0,release_year,0,1,2
21,2010,204,503,1111


## Sentiment Analysis

In [26]:
def sentiment_analysis(year: int):
  
  path_endpoint_5 = os.path.join('..','data','clear','05_sentyment_analysis.csv.gz')
  table_3 = pd.read_csv(path_endpoint_5)
  
  table_3 = table_3[table_3['release_year'] == year]
  
  return({f"Negative = {table_3.iloc[0,1]}, Neutral = {table_3.iloc[0,2]}, Positive= {table_3.iloc[0,3]}"})  

In [27]:
sentiment_analysis(2010)

{'Negative = 204, Neutral = 503, Positive= 1111'}