In [2]:
import os
import ast
import json
import pandas as pd

from textblob import TextBlob
from nltk.sentiment.vader import SentimentIntensityAnalyzer
from datetime import datetime

## GENERAL ##
Antes de comenzar a trabajar realice la descompresión de los archivos por fuera, directamente con un programa como winrar.
Obtuve así archivos .json para trabajar, al comenzar el tratamiento de datos podemos ver que no se trata de archivos .json tradicionales sino que poseen datos anidados.

La idea es obtener de cada .json un dataframe donde se pueda ver los datos correctamente y luego trabajar sobre los mismos para obtener archivos .csv que ayudaran a responder cada función requerida.


### TRABAJAMOS SOBRE EL ARCHIVO DE JUEGOS ###
Este .json no posee mayores inconvenientes, es de los 3 el mas fácil de trabajar.
- Se recorre el archivo.
- Se carga cada linea en una lista.
- La crea un dataframe con los datos de la lista.
- Eliminamos solo las filas que tienen todos los datos nulos.
- Eliminamos las columnas que no tienen datos relevantes para las consignas.
- Eliminamos los juegos que no tienen fecha de lanzamiento, suponiendo que si no fueron publicados no tendrán reviews ni horas jugadas.
- Trabajamos sobre la fecha de lanzamiento, dejando solo el año y eliminando los juegos que no tienen un formato valido para este campo.

In [3]:

datos = []            # Definimos/limpiamos una lista que servira como nexo entre los datos y el dataframe.
with open('output_steam_games.json') as archivo:            # Abrimos el archivo json.
    for linea in archivo:
        datos.append(json.loads(linea))         # Agregamos cada linea del json a la lista ya creada.

dfGames = pd.DataFrame(datos)          # Creamos un dataframe con los datos de la lista.
dfGames = dfGames.dropna(axis=0, how='all')           # Eliminamos del dataframe las filas en las que todos sus campos son nulos.

dfGames = dfGames.drop(['publisher', 'title', 'url', 'specs', 'price', 'reviews_url', 'price', 'early_access', 'developer'], axis=1)          # Eliminamos las columnos que no seran de ayuda en el analisis.

dfGames = dfGames.dropna(subset=['release_date'])        # Eliminanos los datos nan de la columna de fechas.

for fila in dfGames['release_date']:
    try:
        dfGames.loc[dfGames['release_date'] == fila, 'nueva_fecha'] = datetime.strptime(fila, "%Y-%m-%d").year         # Guardamos en una nueva columna, las fechas con formato valido.
    except ValueError:
       dfGames.loc[dfGames['release_date'] == fila, 'nueva_fecha'] = None         # Si la fecha no es valida, guardamos un nan en su lugar.
       

dfGames = dfGames.drop(['release_date'], axis = 1)            # Eliminamos la columna que ya no sera de ayuda.
dfGames = dfGames.rename(columns = {'nueva_fecha': 'release_date'})         # Renombramos la nueva columna con el nombre que ya nos hemos familiarizado.
dfGames = dfGames.dropna(subset = ['release_date'])        #Eliminanos los datos nan de la columna de fechas.
dfGames = dfGames.explode('genres')

In [4]:
dfGames.head()

Unnamed: 0,genres,app_name,tags,id,release_date
88310,Action,Lost Summoner Kitty,"[Strategy, Action, Indie, Casual, Simulation]",761140,2018.0
88310,Casual,Lost Summoner Kitty,"[Strategy, Action, Indie, Casual, Simulation]",761140,2018.0
88310,Indie,Lost Summoner Kitty,"[Strategy, Action, Indie, Casual, Simulation]",761140,2018.0
88310,Simulation,Lost Summoner Kitty,"[Strategy, Action, Indie, Casual, Simulation]",761140,2018.0
88310,Strategy,Lost Summoner Kitty,"[Strategy, Action, Indie, Casual, Simulation]",761140,2018.0


### TRABAJAMOS SOBRE EL ARCHIVO DE REVIEWS ###
Este .json posee datos anidados que complican su correcta lectura.
- Se recorre el archivo.
- Se carga cada linea en una lista.
- La crea un dataframe con los datos de la lista.
- Eliminamos las columnas que no tienen datos relevantes para las consignas.
- Eliminamos filas que correspondan al mismo usuario, suponemos que cada usuario solo puede tener un set de reviews.
- Trabajamos sobre las reviews anidadas, logrando que se creen nuevas filas por cada review manteniendo los demás datos correspondientes (ej. user_id)
- Eliminamos solo las filas que tienen todos los datos nulos.
- Eliminamos los usuario que no posean reviews.
- Sobre cada review, se trasladan a nuevas columnas sus propiedades (ej. posted, review)
- Eliminamos columnas que no serán necesarias para el análisis.

In [5]:

datos=[]            # Definimos/limpiamos una lista que servira como nexo entre los datos y el dataframe.

with open('australian_user_reviews.json') as archivo:           # Abrimos el archivo json.
    for lineas in archivo:
        linea = ast.literal_eval(lineas)            # Ayuda a manejar el "json" sin que el formato traiga problemas.
        datos.append(linea)         # Agregamos cada linea del "json" a la lista ya creada.

dfReviews = pd.DataFrame(datos)         # Creamos un dataframe con los datos de la lista.
dfReviews = dfReviews.drop(['user_url'], axis = 1)            # Eliminamos las columnos que no seran de ayuda en el analisis.


dfReviews = dfReviews.drop_duplicates('user_id')            # Eliminamos los usuarios que esten duplicados.
dfReviews = dfReviews.explode('reviews')          # Se desanidan los reviews, trasladando cada una a una fila diferente.

dfReviews.dropna()          # Eliminamos los registros nan.
dfReviews = dfReviews.dropna(subset = ['reviews'])            # Eliminamos las filas que no tengan reviews.

for key in dfReviews['reviews'].iloc[0].keys():         
    dfReviews[key] = dfReviews['reviews'].apply(lambda x: x[key])         # Toma cada "llave/valor" correspondiente a las reviews y arma columnas aparte para tener los datos ordenados y accesibles.
    
dfReviews = dfReviews.drop(['reviews', 'funny', 'last_edited', 'helpful'], axis = 1)         # Eliminamos la columna REVIEWS, la cual ya fue desanidada y otras que no utilizaremos.

In [6]:
dfReviews.head()

Unnamed: 0,user_id,posted,item_id,recommend,review
0,76561197970982479,"Posted November 5, 2011.",1250,True,Simple yet with great replayability. In my opi...
0,76561197970982479,"Posted July 15, 2011.",22200,True,It's unique and worth a playthrough.
0,76561197970982479,"Posted April 21, 2011.",43110,True,Great atmosphere. The gunplay can be a bit chu...
1,js41637,"Posted June 24, 2014.",251610,True,I know what you think when you see this title ...
1,js41637,"Posted September 8, 2013.",227300,True,For a simple (it's actually not all that simpl...


### TRABAJAMOS SOBRE EL ARCHIVO DE ITEMS ###
Este .json posee datos anidados que complican su correcta lectura.
- Se recorre el archivo.
- Se carga cada linea en una lista.
- La crea un dataframe con los datos de la lista.
- Eliminamos las columnas que no tienen datos relevantes para las consignas.
- Eliminamos filas que correspondan al mismo usuario, suponemos que cada usuario solo puede tener un set de juegos.
- Eliminamos los usuario que no posean juegos.
- Trabajamos sobre los juegos anidados, logrando que se creen nuevas filas por cada juego manteniendo los demás datos correspondientes (ej. user_id)
- Sobre cada juego, se trasladan a nuevas columnas sus propiedades (ej. item_name, playtime_forever)
- Eliminamos columnas que no serán necesarias para el análisis.


In [7]:

datos=[]            # Definimos/limpiamos una lista que servira como nexo entre los datos y el dataframe.

with open('australian_users_items.json') as archivo:            # Abrimos el archivo json.
    for lineas in archivo:
        linea = ast.literal_eval(lineas)         # Ayuda a manejar el "json" sin que el formato traiga problemas.
        datos.append(linea)         # Agregamos cada linea del "json" a la lista ya creada.

dfItems = pd.DataFrame(datos)         # Creamos un dataframe con los datos de la lista.
dfItems = dfItems.drop(['user_url', 'steam_id'], axis=1)            # Eliminamos las columnos que no seran de ayuda en el analisis.


dfItems = dfItems.drop_duplicates('user_id')            # Eliminamos los usuarios que esten duplicados.
dfItems = dfItems.drop(dfItems[(dfItems['items_count'] == 0)].index)            # Eliminamos los usuarios que no tengan juegos.
dfItems = dfItems.explode('items')          # Se desanidan los juegos, trasladando cada uno a una fila diferente.

for key in dfItems['items'].iloc[0].keys():         
    dfItems[key] = dfItems['items'].apply(lambda x: x[key])         # Toma cada "llave/valor" correspondiente a los juegos y arma columnas aparte para tener los datos ordenados y accesibles.
    
dfItems = dfItems.drop(['items', 'items_count', 'playtime_2weeks'], axis = 1)         # Eliminamos la columna ITEMS, la cual ya fue desanidada y otras que no utilizaremos.

In [8]:
dfItems.head()

Unnamed: 0,user_id,item_id,item_name,playtime_forever
0,76561197970982479,10,Counter-Strike,6
0,76561197970982479,20,Team Fortress Classic,0
0,76561197970982479,30,Day of Defeat,7
0,76561197970982479,40,Deathmatch Classic,0
0,76561197970982479,50,Half-Life: Opposing Force,0


### PRIMER CONSULTA ###
    Debe devolver año con mas horas jugadas para dicho género.

Para obtener los datos requeridos, debemos juntar los dataframes de ítems y games para obtener los datos que necesitamos.
- Del dataframe de ítems, obtenemos el total de horas jugadas en cada juego.
- Unimos ítems con games, obteniendo de cada juegos los minutos totales jugados.
- Eliminamos los juegos que no posean genero.
- Agrupamos los datos por genero y año de lanzamiento, sumando los minutos. Obtenemos el total de minutos jugados por cada genero, discriminado por año.
- Creamos una nueva columna que muestra para cada genero, discriminado por año, el mayor numero de minutos jugados.
- Filtramos para que el dataframe solo traiga los géneros y años que tengan el mayor numero de minutos jugados.
- Convertimos el año a formato numérico para evitar inconvenientes luego.
- EXPORTAMOS EL DATAFRAME A .CSV

In [9]:

dfAux = dfItems.groupby(by = 'item_id').playtime_forever.sum()            # Agrupamos los juegos, obteniendo las horas totales de juego.
dfResultadoU = pd.merge(dfGames, dfAux, how = 'inner', left_on='id', right_on = 'item_id')         # Agregamos al dataframe JUEGOS, el total de horas jugadas en c/u.
dfResultadoU = dfResultadoU.dropna(subset=['genres'])        #Eliminanos los datos nan de la columna de generos.

dfResultadoU = dfResultadoU.groupby(['genres' , 'release_date'])['playtime_forever'].sum().reset_index()           # Agrupamos los datos por genero y año, sumando las horas.
dfResultadoU['max'] = dfResultadoU.groupby('genres')['playtime_forever'].transform(max)           # Detectamos la mayor cantidad de horas y las agregamos a una columna auxiliar.
dfResultadoU = dfResultadoU[dfResultadoU['playtime_forever'] == dfResultadoU['max']]         # Filtramos el dataframe para que traiga solo los generos y el año con la mayor cantidad de horas.
dfResultadoU['release_date'] = dfResultadoU['release_date'].astype('int')         # Converimos el año a formato numerico.

### EXPORTAMOS A .CSV EL DATAFRAME ###
os.makedirs('Resultados', exist_ok = True)
dfResultadoU.to_csv('Resultados/PConsulta.csv')

In [10]:
dfResultadoU.head()

Unnamed: 0,genres,release_date,playtime_forever,max
26,Action,2012,1085500221,1085500221
59,Adventure,2011,221631891,221631891
71,Animation &amp; Modeling,2015,1345545,1345545
75,Audio Production,2014,455463,455463
104,Casual,2015,81706883,81706883



### SEGUNDA CONSULTA ###

    Debe devolver el usuario que acumula más horas jugadas para el género dado y una lista de la acumulación de horas jugadas por año.

Para obtener los datos requeridos debemos juntar los 3 dataframes.

- Unimos games con reviews y el resultado, con items.
- Eliminamos las columnas que no poseen datos utiles.
- Trabajamos sobre la fecha de publicación de las reviews transformándolas en año, si no posee un formato valido eliminamos la fila.
- Agrupamos los datos por usuario, año de review y genero , sumando los minutos. Obtenemos el total de minutos jugados por cada usuario, discriminado por año de review y genero del juego.
- Creamos una nueva columna que muestra para cada usuario, discriminado por año de review y genero, el mayor numero de minutos jugados.
- Filtramos para que el dataframe solo traiga los usuario, años y genero, que tengan el mayor numero de minutos jugados.
- Convertimos el año a formato numérico para evitar inconvenientes luego.
- EXPORTAMOS EL DATAFRAME A .CSV.

In [11]:

dfResultadoD = pd.merge(dfGames, dfReviews, how = 'inner', left_on='id', right_on='item_id')            # Creamos un nuevo dataframe, agrupando los juegos y las reviews.
dfResultadoD = pd.merge(dfResultadoD, dfItems, how='inner', left_on=['user_id', 'item_id'], right_on=['user_id', 'item_id'])            # Agregamos al mismo dataframe, el tiempo juegado.
dfResultadoD = dfResultadoD.drop(['tags', 'release_date',  'item_id', 'recommend', 'review', 'item_name'], axis = 1)          # Eliminamos las columnas que no seras utilizadas.

for fila in dfResultadoD['posted']:
    try:
        dfResultadoD.loc[dfResultadoD['posted'] == fila, 'nueva_fecha'] = datetime.strptime(fila, 'Posted %B %d, %Y.').year         # Guardamos en una nueva columna, las fechas con formato valido (poseen anio).
    except ValueError:
       dfResultadoD.loc[dfResultadoD['posted'] == fila, 'nueva_fecha'] = None         # Si la fecha no es valida (no posee anio), guardamos un nan en su lugar.

dfResultadoD = dfResultadoD.dropna(subset=['nueva_fecha'])        #Eliminanos los datos nan de la columna de fechas.
dfResultadoD = dfResultadoD.groupby(['user_id', 'nueva_fecha', 'genres'])['playtime_forever'].sum().reset_index()           # Agrupamos los datos por usuario, anio y genero, sumando las horas.
dfResultadoD['max'] = dfResultadoD.groupby(['user_id', 'genres'])['playtime_forever'].transform(sum)           # Sumamos las horas totales por genero de cada jugador y las agregamos a una columna auxiliar.
dfResultadoD = dfResultadoD[dfResultadoD.groupby("genres")["max"].transform(max) == dfResultadoD["max"]]            # Filtramos los datos por la maxima cantidad de horas, dejando solo los que necesitamos para la consulta.
dfResultadoD['nueva_fecha'] = dfResultadoD['nueva_fecha'].astype('int')         # Converimos el año a formato numero.


### EXPORTAMOS A .CSV EL DATAFRAME ###
os.makedirs('Resultados', exist_ok = True)
dfResultadoD.to_csv('Resultados/SConsulta.csv')

In [12]:
dfResultadoD.head()

Unnamed: 0,user_id,nueva_fecha,genres,playtime_forever,max
10951,76561198059330972,2015,Animation &amp; Modeling,65427,65427
10952,76561198059330972,2015,Education,65427,65427
10955,76561198059330972,2015,Utilities,65427,65427
34805,Kipikinson,2015,Video Production,52768,52768
39998,SambaWarKiddo,2014,Audio Production,7025,7025


### TERCER Y CUARTA CONSULTA ###
    Devuelve el top 3 de juegos MÁS recomendados por usuarios para el año dado.
    Devuelve el top 3 de juegos MENOS recomendados por usuarios para el año dado.

Para obtener los resultados de estas consultas, se debe realizar prácticamente el mismo tratamiento de los datos. Para reducir la cantidad de archivos, decidí obtener los resultados de ambas en un mismo .csv
- Trabajamos sobre el dataframe reviews, obteniendo el año de las fechas originales y descartando las que no posean año y/o formato valido.
- Utilizamos textblob para obtener la polaridad y subjetividad de las reviews.
- Creamos 3 columnas nuevas para los posibles sentimientos: positivo, negativo y neutro.
- Recorremos todas las reviews y:
  - Si la subjetividad es menor a 0.4 vamos a tomar como que la review NO es valida para el analisis de polaridad y directamente se asignara neutro.
  - Si la subjetividad es mayor a 0.4:
    - Si la polaridad es 1 la review es positiva.
    - Si la polaridad es 0 la review es neutra.
    - Si la polaridad es -1 la review es negativa.
- Cada sentimiento se marca en la columna correspondiente con un 1, dejando las demás en 0.
- Agrupamos los datos por recomendación, fecha e item, sumando las columnas de los análisis. Obtenemos así el total de análisis positivos, neutros y negativos por cada item diferenciado por recomendación y fecha.
- Eliminamos las columnas que no serán útiles.
- Definimos como integer las columnas correspondientes.
- Agregamos, desde el dataframe items, los nombres de los juegos al dataframe creado.
- EXPORTAMOS EL DATAFRAME A .CSV.

In [None]:

dfResultadoT = dfReviews

for fila in dfResultadoT['posted']:
    try:
        dfResultadoT.loc[dfResultadoT['posted'] == fila, 'nueva_fecha'] = datetime.strptime(fila, 'Posted %B %d, %Y.').year         # Guardamos en una nueva columna, las fechas con formato valido (poseen anio).
    except ValueError:
       dfResultadoT.loc[dfResultadoT['posted'] == fila, 'nueva_fecha'] = None         # Si la fecha no es valida (no posee anio), guardamos un nan en su lugar.
       
dfResultadoT = dfResultadoT.dropna(subset=['nueva_fecha'])        #Eliminanos los datos nan de la columna de fechas.


for fila in dfResultadoT['review']:
    text_blob = TextBlob(fila)

    polarity = text_blob.polarity           # Calculamos la polaridad de las reviews.
    subjectivity = text_blob.subjectivity           # Calculamos la subjetividad de las rewiews.
        
    if subjectivity > 0.4:          # Si la subjetividad es mayor a 0.4, lo tomamos como una review valida [...] 
        if polarity > 0:
            dfResultadoT.loc[dfResultadoT['review'] == fila, 'positi'] = 1          # Si la polaridad es mayor a cero, es positiva.
        elif polarity < 0:
            dfResultadoT.loc[dfResultadoT['review'] == fila, 'negati'] = 1          # Si la polaridad es menor a cero, es negativa.
        else:
            dfResultadoT.loc[dfResultadoT['review'] == fila, 'neutro'] = 1          # Si la polaridad es cero, es neutra.
    else:
        dfResultadoT.loc[dfResultadoT['review'] == fila, 'neutro'] = 1          # [...] De lo contrario lo marcamos como neutro.
        
dfResultadoT = dfResultadoT.groupby(["recommend", "nueva_fecha", "item_id"]).sum().reset_index()            # Agrupamos los datos por recomendacion, fecha e item. Sumamos los resultados del analisis.
dfResultadoT = dfResultadoT.drop(['user_id', 'posted', 'review'], axis = 1)         # Eliminamos la columnas que no utilizaremos.
dfResultadoT['nueva_fecha'] = dfResultadoT['nueva_fecha'].astype('int')         # Convertimos los años a integer.
dfResultadoT['neutro'] = dfResultadoT['neutro'].astype('int')         # Convertimos a integer.
dfResultadoT['positi'] = dfResultadoT['positi'].astype('int')         # Convertimos a integer.
dfResultadoT['negati'] = dfResultadoT['negati'].astype('int')         # Convertimos a integer.

dfAux = dfItems.drop(['user_id', 'playtime_forever'], axis = 1)         # Creamos un dataframe auxiliar con los nombres de los juegos.
dfAux = dfAux.drop_duplicates()         # Eliminamos datos duplicados.

dfResultadoT = pd.merge(dfResultadoT, dfAux, how='left', left_on=['item_id'], right_on=['item_id'])            # Agregamos los nombres de los juegos a nuestro dataframe de resultado.

### EXPORTAMOS A .CSV EL DATAFRAME ###
os.makedirs('Resultados', exist_ok=True)
dfResultadoT.to_csv('Resultados/TConsulta.csv')

In [30]:
dfResultadoT

Unnamed: 0,recommend,nueva_fecha,item_id,neutro,positi,negati,item_name
0,False,2010,440,0,1,0,
1,False,2011,105400,1,0,1,Fable III
2,False,2011,107900,1,0,0,War Inc. Battlezone
3,False,2011,18700,0,0,2,And Yet It Moves
4,False,2011,240,0,1,0,Counter-Strike: Source
...,...,...,...,...,...,...,...
6148,True,2015,9900,1,2,1,Star Trek Online
6149,True,2015,9930,0,2,1,Test Drive Unlimited 2
6150,True,2015,99810,1,0,0,Bulletstorm
6151,True,2015,99900,8,7,2,Spiral Knights



### QUINTA CONSULTA ### 
    Según el año de lanzamiento, se devuelve una lista con la cantidad de registros de reseñas de usuarios que se encuentren categorizados con un análisis de sentimiento.
    
Para obtener los resultados de esta consulta trabajaremos sobre la anterior, ya que posee el análisis de sentimiento.
- Agregamos al dataframe anterior la fecha de lanzamiento de cada juego, desde el dataframe games.
- Eliminamos las columnas que no serán necesarias.
- Agrupamos por año de lanzamiento, sumando los análisis de sentimiento. Obtenemos para cada año la cantidad de positivos, neutros y negativos.
- Convertimos a numérico la fecha.
- EXPORTAMOS EL DATAFRAME A .CSV.

In [31]:

dfResultadoQ = pd.merge(dfGames, dfResultadoT, how = 'inner', left_on='id', right_on = 'item_id')            # Creamos un nuevo dataframe, agregando a la consulta utilizada para el punto anterior la fecha de lanzamiento de los juegos.
dfResultadoQ = dfResultadoQ.drop(['genres', 'item_id', 'app_name', 'tags', 'id', 'recommend', 'nueva_fecha'], axis = 1)           # Eliminamos columnas que no son necesarias.
dfResultadoQ = dfResultadoQ.groupby('release_date').sum().reset_index()         # Agrupamos por año y sumamos los analisis.
dfResultadoQ['release_date'] = dfResultadoQ['release_date'].astype('int')           # Convertimos los años en formato númerico.

### EXPORTAMOS A .CSV EL DATAFRAME ###
os.makedirs('Resultados', exist_ok = True)
dfResultadoQ.to_csv('Resultados/QConsulta.csv')

In [32]:
dfResultadoQ.head()

Unnamed: 0,release_date,neutro,positi,negati,item_name
0,1989,0,2,0,Sword of the SamuraiSword of the Samurai
1,1990,1,4,0,LoomCommander Keen Complete PackCommander Keen...
2,1991,0,1,0,Crystal Caves
3,1992,4,2,0,Putt-Putt Joins the ParadePutt-Putt Joins the ...
4,1993,1,2,3,X-COM: UFO DefenseX-COM: UFO DefensePutt-Putt ...


## CONSIDERACIONES ##

Se exporta a cada .csv la menor cantidad de datos posibles para que los archivos no sean pesados y las consultas puedan realizarse sin tanto procesamiento.

Para evitar agregar librerías y frameworks al deploy, las funciones del main.py que buscan los datos se trabajan directamente recorriendo los .csv, sin dataframes.

No he alcanzado a terminar el sistema de recomendación y he decidido entregar el proyecto como se encuentra, lo completaré al finalizar las etapas de evaluación.