# Librerías y configuraciones


In [76]:
import pandas as pd
import numpy as np

In [77]:
pd.set_option('display.max_colwidth', 100)

---

# Carga de datos

In [78]:
df_genres = pd.read_csv('data/df_genres.csv')
df_item_genre = pd.read_csv('data/df_item_genre.csv')
df_items = pd.read_csv('data/df_items.csv')
df_reviews = pd.read_csv('data/df_reviews.csv')
df_users_items = pd.read_csv('data/df_users_items.csv')
df_users = pd.read_csv('data/df_users.csv')
df_user_id_item_id_price = pd.read_csv("data/df_user_id_item_id_price.csv")
df_developer = pd.read_csv('data/df_developer.csv')

----

# Funciones

In [79]:
# 1. def userdata( User_id : str ): 
#     Debe devolver 
#     * cantidad de dinero gastado por el usuario,  
#     * el porcentaje de recomendación en base a reviews.recommend
#     * cantidad de items.


In [80]:
def userdata(user_id: str):
    '''Al ingresar el id de un usuario, devuelve la cantidad de dinero gastado por dicho usuario, 
    el porcentaje de recomendación en base a reviews.recommend y cantidad de items.'''

    user_id = user_id.strip()

    if any(part == user_id for part in df_user_id_item_id_price['user_id']):

        # Dinero gastado
        df_filtrado_dinero = df_user_id_item_id_price[df_user_id_item_id_price.user_id == user_id]
        dinero_gastado = round(df_filtrado_dinero.price.sum(),2)

        # Porcentaje de recomendaciones
        df_filtrado_recomendaciones = df_reviews[df_reviews.user_id == user_id]
        
        if df_filtrado_recomendaciones.shape[0] == 0:
            porcentaje_de_recomendacion = 0
        else:
            porcentaje_de_recomendacion = round(df_filtrado_recomendaciones.recommend.mean(),3)*100
        
        # items comprados
        items_comprados = int(df_filtrado_dinero.shape[0])
        
        # items recomendados
        items_recomendados = int(df_filtrado_recomendaciones.shape[0])

        out = {"dinero_gastado":dinero_gastado, "porcentaje_de_recomendaciones": porcentaje_de_recomendacion, 'items_recomendados': items_recomendados,'items_comprados':items_comprados}

    else:
         out = (F'El usuario {user_id}, no éxiste. Intente nuevamente. EJ: "76561197970982479"')

    return out

In [81]:
userdata('76561197970982479')

{'dinero_gastado': 2772.39,
 'porcentaje_de_recomendaciones': 100.0,
 'items_recomendados': 2,
 'items_comprados': 169}

In [82]:
df_reviews[df_reviews.user_id == '76561197970982479']

Unnamed: 0,user_id,item_id,recommend,posted_date,year,sentiment_analysis
0,76561197970982479,1250,True,2011-11-05,2011,2
1,76561197970982479,22200,True,2011-07-15,2011,2


In [83]:
userdata('0212030')

{'dinero_gastado': 104.95,
 'porcentaje_de_recomendaciones': 0,
 'items_recomendados': 0,
 'items_comprados': 5}

In [84]:
df_user_id_item_id_price[df_user_id_item_id_price.user_id == '0212030']

Unnamed: 0,user_id,item_id,price
2345493,212030,4560,19.99
2345494,212030,20540,19.99
2345495,212030,10500,19.99
2345496,212030,730,14.99
2345497,212030,8930,29.99


In [85]:
df_reviews[df_reviews.user_id == '0212030']

Unnamed: 0,user_id,item_id,recommend,posted_date,year,sentiment_analysis


----

2. def countreviews( YYYY-MM-DD y YYYY-MM-DD : str ): 
    * Cantidad de usuarios que realizaron reviews entre las fechas dadas y, 
    * el porcentaje de recomendación de los mismos en base a reviews.recommend.

In [86]:
####### --------------->>>  Función 2

def countreviews (fecha_inicio:str, fecha_fin:str):
    '''Se ingresan dos fechas en formato YYY-MM-DD, respetando el orden cronológico y
    devuelve la cantidad de usuarios que realizaron reviews entre las fechas dadas y el porcentaje de recomendación de los mismos en base a reviews.recommend'''

    df_filtrado = df_reviews[(df_reviews['posted_date'] >= fecha_inicio) & (df_reviews['posted_date'] <= fecha_fin)]
    cant_usuarios = df_filtrado.shape[0]
    porcentaje_de_recomendacion = round(df_filtrado.recommend.mean(),3)*100
    return {"cantidad_de_usuarios":cant_usuarios, "porcentaje_de_recomendacion":porcentaje_de_recomendacion}


In [87]:
# pruebas
countreviews('2011-11-05' , '2011-11-20')

{'cantidad_de_usuarios': 11, 'porcentaje_de_recomendacion': 90.9}

In [88]:
df_reviews[(df_reviews['posted_date'] >= '2011-11-05') & (df_reviews['posted_date'] <= '2011-11-20')]

Unnamed: 0,user_id,item_id,recommend,posted_date,year,sentiment_analysis
0,76561197970982479,1250,True,2011-11-05,2011,2
8610,FDAOP,620,True,2011-11-14,2011,2
8611,FDAOP,55230,True,2011-11-14,2011,0
12567,msoles7,12900,True,2011-11-16,2011,2
12652,mythilas,620,True,2011-11-15,2011,2
17954,REBAS_AS_F-T,9200,True,2011-11-09,2011,1
20861,MonsOlympus,620,True,2011-11-05,2011,2
28670,xychome,550,True,2011-11-05,2011,2
31951,GetSnitchedOn,440,False,2011-11-17,2011,1
37456,76561198042266501,24200,True,2011-11-14,2011,2


In [89]:
# el df df_reviews tiene valores nulos en la columna posted_date. Revisar como influyen en la funcion, si los toma en cuenta, si los ignora, etc.
#  se podria agregar un verificador de fechas validas.

---

3. def genre( género : str ): 
    * Devuelve el puesto en el que se encuentra un género sobre el ranking de los mismos analizado bajo la columna PlayTimeForever.

In [90]:
####### --------------->>>  Función 3

def genre (genero:str):
    '''Al ingresar el nombre de un género, devuelve el puesto en el que se encuentra un género sobre el ranking de los mismos analizado bajo la columna PlayTimeForever.'''
    genero_minusculas = genero.capitalize().strip()
    if genero_minusculas in list(df_genres.name):
        puesto = int(df_genres[df_genres.name == genero_minusculas].reset_index().at[0,'ranking'])
        salida = {"genero": genero_minusculas, "ranking":puesto}
    else:
        puesto = 'No se encuentra. Intente nuevamente. Ej: Action'
        salida = {"genero": genero_minusculas, "puesto":puesto}
    return salida


In [91]:
# Pruebas
print(genre ('strategy'))
print(genre ('action '))
print(genre ('  ACTION'))
print(genre ('ACTIONN'))
print(genre ('strateggggy'))

{'genero': 'Strategy', 'ranking': 6}
{'genero': 'Action', 'ranking': 1}
{'genero': 'action', 'puesto': 'No se encuentra. Intente nuevamente. Ej: Action'}
{'genero': 'Actionn', 'puesto': 'No se encuentra. Intente nuevamente. Ej: Action'}
{'genero': 'Strateggggy', 'puesto': 'No se encuentra. Intente nuevamente. Ej: Action'}


----


4. def userforgenre( género : str ): Top 5 de usuarios con más horas de juego en el género dado,  con su URL (del user) y user_id.


In [92]:
df_item_genre.head(2)

Unnamed: 0,item_id,genres
0,761140,Action
1,761140,Casual


In [93]:
df_users_items.head(2)

Unnamed: 0,user_id,item_id,playtime_forever
0,76561197970982479,10,6
1,76561197970982479,30,7


In [94]:
df_users.head(2)

Unnamed: 0.1,Unnamed: 0,user_id,user_url
0,0,76561197970982479,http://steamcommunity.com/profiles/76561197970982479
1,1,js41637,http://steamcommunity.com/id/js41637


In [95]:
# -->>>> funcion 4

def userforgenre( genero : str ): 
    '''Al ingresar un género, devuelve los user_id y las url del Top 5 de usuarios con más horas de juego en el género'''

    genero_min = genero.capitalize().strip()

    if genero_min in list(df_item_genre.genres):

        lista_de_items_del_genero = list(df_item_genre[df_item_genre.genres == genero_min].item_id)
        df = df_users_items[df_users_items.item_id.isin(lista_de_items_del_genero)]

        top5 = df.groupby('user_id')['playtime_forever'].sum().reset_index()
        top5 = top5.sort_values('playtime_forever',ascending=False).head() # aca ta el user id y las hs de juego
        top5 = top5.merge(df_users[['user_id','user_url']], on='user_id', how='left')
        users_top5 = list(top5.user_id)
        user_url_top5 = list(top5.user_url)

        out = {"users_top5":users_top5, "user_url_top5":user_url_top5}

        return out

    else:
        out = {f'El género {genero} no éxiste. Intente nuevamente. EJ: Action'}
        return out

In [96]:
userforgenre('action')

{'users_top5': ['Sp3ctre',
  'shinomegami',
  'REBAS_AS_F-T',
  'Terminally-Chill',
  'DownSyndromeKid'],
 'user_url_top5': ['http://steamcommunity.com/id/Sp3ctre',
  'http://steamcommunity.com/id/shinomegami',
  'http://steamcommunity.com/id/REBAS_AS_F-T',
  'http://steamcommunity.com/id/Terminally-Chill',
  'http://steamcommunity.com/id/DownSyndromeKid']}

-----

5. def developer( desarrollador : str ): Cantidad de items y porcentaje de contenido Free por año según empresa desarrolladora.

In [97]:
df_developer.head(20)

Unnamed: 0,developer,price,year
0,Kotoshiro,4.99,2018
1,Secret Level Srl,0.0,2018
2,Poolians.Com,0.0,2017
3,彼岸领域,0.99,2017
4,Trickjump Games Ltd,3.99,2018
5,Poppermost Productions,9.99,2018
6,Poppermost Productions,18.99,2018
7,Poppermost Productions,29.99,2018
8,Stegalosaurus Game Development,10.99,2018
9,Copperpick Studio,3.99,2018


In [98]:
def developer(desarrollador : str ):
    '''Al ingresar el nombre de un desarrollador, devuelve la cantidad de items free y el porcentaje de contenido free por año según empresa desarrolladora.'''

    desarrollador_minusculas = desarrollador.title().strip()

    
    if any(part == desarrollador_minusculas for part in df_developer['developer']):
        
        df_filtrado = df_developer[df_developer.developer == desarrollador_minusculas]
        df_xanio = df_filtrado.groupby(['year']).size().reset_index(name=('cantidad_total'))
        df_filtrado_free = df_filtrado[df_filtrado.price == 0].groupby(['year']).size().reset_index(name=('cantidad_free'))
        df = df_xanio.merge(df_filtrado_free,how='left')
        df = df.fillna(0)

        df['porcentaje'] = (df.cantidad_free / df.cantidad_total * 100).round().astype(int)
        df['cantidad_free'] = df['cantidad_free'].astype('int64')

        anios = df_xanio['year'].tolist()
        cantidad_de_items_free = df['cantidad_free'].tolist()
        porcentaje_free_por_anio = df['porcentaje'].tolist()

        out = {
            "anios": anios,
            "cantidad_de_items_free": cantidad_de_items_free,
            "porcentaje_free_por_anio": porcentaje_free_por_anio
            }
        
    else:
         out = {F'El desarrollador {desarrollador}, no éxiste. Intente nuevamente. EJ: "stegalosaurus game development"'}

    return out

In [99]:
developer('stegalosaurus game development')

{'anios': [2016, 2017, 2018],
 'cantidad_de_items_free': [2, 0, 0],
 'porcentaje_free_por_anio': [29, 0, 0]}

In [100]:
df_filtrado = df_developer[df_developer.developer == 'Stegalosaurus Game Development']
df_filtrado


Unnamed: 0,developer,price,year
8,Stegalosaurus Game Development,10.99,2018
4867,Stegalosaurus Game Development,4.99,2016
4868,Stegalosaurus Game Development,1.99,2016
5990,Stegalosaurus Game Development,1.99,2016
6870,Stegalosaurus Game Development,1.99,2016
8657,Stegalosaurus Game Development,10.99,2017
8785,Stegalosaurus Game Development,2.99,2017
8788,Stegalosaurus Game Development,2.99,2017
9746,Stegalosaurus Game Development,1.99,2017
9809,Stegalosaurus Game Development,0.99,2017


In [101]:
df_xanio = df_filtrado.groupby(['year']).size().reset_index(name=('cantidad_total'))
df_filtrado_free = df_filtrado[df_filtrado.price == 0].groupby(['year']).size().reset_index(name=('cantidad_free'))
df = df_xanio.merge(df_filtrado_free,how='left')
df = df.fillna(0)
df

Unnamed: 0,year,cantidad_total,cantidad_free
0,2016,7,2.0
1,2017,14,0.0
2,2018,1,0.0


--------------

def sentiment_analysis( año : int ): Según el año de lanzamiento, se devuelve una lista con la cantidad de registros de reseñas de usuarios que se encuentren categorizados con un análisis de sentimiento. Ejemplo de retorno: {Negative = 182, Neutral = 120, Positive = 278}

In [102]:
def sentiment_analysis( anio : int ):
    '''Al ingresar el año de lanzamiento (yyyy), se devuelve una lista con la cantidad de registros de reseñas de usuarios que se encuentren categorizados con un análisis de sentimiento.'''

    lista_de_anios = list(df_reviews.year.unique())
    lista_de_anios = [int(x) for x in lista_de_anios if not np.isnan(x)]
    lista_de_anios = sorted(lista_de_anios)

    if anio in lista_de_anios:

        df_filtrado = df_reviews[df_reviews.year == anio].groupby(['sentiment_analysis']).size().reset_index(name=('cantidad'))

        negative = int(df_filtrado.iloc[0,1])
        neutral = int(df_filtrado.iloc[1,1])
        positive = int(df_filtrado.iloc[2,1])

        return {"Negative":negative,"Neutral":neutral,"Positive":positive}
    else:
        return {f'El año ingresado no se encuentra. Puede ingresar una de las siguientes opciones:{lista_de_anios[1:]}'}


Si se ingresa el valor 0 obtenemos la valoracion de los comentarios que poseen nulos en la fecha de posteo.

In [103]:
sentiment_analysis(0)

{'Negative': 1902, 'Neutral': 1883, 'Positive': 4258}