Para esta función se necesita:

- Desde el Dataframe user_items el id de usuario, el id de juego y la cantidad de tiempo jugado
- Desde el Dataframe steam_games el id de juego y el género
- Desde el Dataframe user_reviews el nombre de usuario y la fecha de reviews

Con estos datos se crea el Dataframe que se sube para la consulta

In [1]:
# Importar las librerías a utilizar
import pandas as pd

In [2]:
# Cargar los Dataframes
df_user_items = pd.read_csv("C:/Users/Usuario/Desktop/Varios yo/SoyHenry/P1/Henry_PI1_Steam/data/user_items_2.csv")
df_steam_games = pd.read_csv("C:/Users/Usuario/Desktop/Varios yo/SoyHenry/P1/Henry_PI1_Steam/data/steam_games_2.csv")
df_user_reviews = pd.read_csv("C:/Users/Usuario/Desktop/Varios yo/SoyHenry/P1/Henry_PI1_Steam/data/user_reviews_2.csv")

## TRANSFORMACIONES de user_items

In [3]:
# Revisar las columnas de user_items
df_user_items.columns

Index(['item_id', 'item_name', 'playtime_forever', 'user_id'], dtype='object')

In [4]:
# Desde el Dataframe df_user_items elimino las columnas que no necesito
df_user_items.drop("item_name", axis=1, inplace=True)
df_user_items

Unnamed: 0,item_id,playtime_forever,user_id
0,10,6,76561197970982479
1,20,0,76561197970982479
2,30,7,76561197970982479
3,40,0,76561197970982479
4,50,0,76561197970982479
...,...,...,...
5153204,346330,0,76561198329548331
5153205,373330,0,76561198329548331
5153206,388490,3,76561198329548331
5153207,521570,4,76561198329548331


In [5]:
# Revisar el Dataframe
df_user_items.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5153209 entries, 0 to 5153208
Data columns (total 3 columns):
 #   Column            Dtype 
---  ------            ----- 
 0   item_id           int64 
 1   playtime_forever  int64 
 2   user_id           object
dtypes: int64(2), object(1)
memory usage: 117.9+ MB


In [6]:
# Para evitar inconvenientes, convierto el id de user_items al mismo formato del id de steam_games
df_user_items["item_id"] = df_user_items["item_id"].astype(int).astype(float)

In [7]:
# Por optimización, eliminar los registros con "0" horas jugadas, ya que necesito sumar horas jugadas y estos no suman
df_user_items = df_user_items[df_user_items['playtime_forever'] != 0]

## TRANSFORMACIONES de steam_games

In [8]:
# Revisar las columnas de steam_games
df_steam_games.columns

Index(['Unnamed: 0', 'app_name', 'release_date', 'price', 'early_access', 'id',
       'developer', 'genre', 'tag', 'spec'],
      dtype='object')

In [9]:
# Desde el Dataframe df_steam_games eliminar las columnas que no se necesitan
df_steam_games.drop("Unnamed: 0", axis=1, inplace=True)
df_steam_games.drop("app_name", axis=1, inplace=True)
df_steam_games.drop("release_date", axis=1, inplace=True)
df_steam_games.drop("price", axis=1, inplace=True)
df_steam_games.drop("early_access", axis=1, inplace=True)
df_steam_games.drop("developer", axis=1, inplace=True)
df_steam_games.drop("tag", axis=1, inplace=True)
df_steam_games.drop("spec", axis=1, inplace=True)
df_steam_games

Unnamed: 0,id,genre
0,761140.0,Action
1,761140.0,Action
2,761140.0,Action
3,761140.0,Action
4,761140.0,Action
...,...,...
2088821,681550.0,
2088822,681550.0,
2088823,681550.0,
2088824,681550.0,


In [10]:
# Debido a la presenca de "tag" y "spec" ahora eliminadas, quedaron muchos duplicados
df_steam_games.drop_duplicates(inplace=True)

In [11]:
# Revisar el Dataframe
df_steam_games.info()

<class 'pandas.core.frame.DataFrame'>
Index: 74836 entries, 0 to 2088778
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   id      74833 non-null  float64
 1   genre   71553 non-null  object 
dtypes: float64(1), object(1)
memory usage: 1.7+ MB


## TRANSFORMACIONES de user_reviews

In [12]:
# Revisar las columnas de user_reviews
df_user_reviews.columns

Index(['user_id', 'posted', 'item_id', 'recommend', 'polarity', 'sentiment'], dtype='object')

In [13]:
# Desde el Dataframe df_user_reviews eliminar las columnas que no se necesitan
df_user_reviews.drop("recommend", axis=1, inplace=True)
df_user_reviews.drop("polarity", axis=1, inplace=True)
df_user_reviews.drop("sentiment", axis=1, inplace=True)
df_user_reviews

Unnamed: 0,user_id,posted,item_id
0,76561197970982479,2011.0,1250.0
1,76561197970982479,2011.0,22200.0
2,76561197970982479,2011.0,43110.0
3,js41637,2014.0,251610.0
4,js41637,2013.0,227300.0
...,...,...,...
59328,76561198312638244,,70.0
59329,76561198312638244,,362890.0
59330,LydiaMorley,,273110.0
59331,LydiaMorley,,730.0


In [14]:
# Completar con un valor por defecto los NaN del año de posteo
df_user_reviews['posted'].fillna(1, inplace=True)

In [15]:
# Convertir a tipo de dato entero la columna del año de posteo
df_user_reviews['posted'] = df_user_reviews['posted'].astype(int)

In [16]:
# Renombrar la columna de 'item_id'
df_user_reviews = df_user_reviews.rename(columns={'item_id': 'id'})

In [17]:
df_user_reviews

Unnamed: 0,user_id,posted,id
0,76561197970982479,2011,1250.0
1,76561197970982479,2011,22200.0
2,76561197970982479,2011,43110.0
3,js41637,2014,251610.0
4,js41637,2013,227300.0
...,...,...,...
59328,76561198312638244,1,70.0
59329,76561198312638244,1,362890.0
59330,LydiaMorley,1,273110.0
59331,LydiaMorley,1,730.0


-------------------------------

## Ahora con los Dataframes procesados, creo el csv para la consulta

In [18]:
# Renombro la columna de 'item_id' de user_items
df_user_items = df_user_items.rename(columns={'item_id': 'id'})

In [19]:
df_user_items.shape

(3285246, 3)

In [20]:
# Revisar si hay registros duplicados
df_user_items.drop_duplicates()

Unnamed: 0,id,playtime_forever,user_id
0,10.0,6,76561197970982479
2,30.0,7,76561197970982479
8,300.0,4733,76561197970982479
9,240.0,1853,76561197970982479
10,3830.0,333,76561197970982479
...,...,...,...
5153202,304930.0,677,76561198329548331
5153203,227940.0,43,76561198329548331
5153206,388490.0,3,76561198329548331
5153207,521570.0,4,76561198329548331


In [30]:
# Unir los Dataframes de user_items y user_reviews para juntar las horas de juego con el año
df_reviews_items = df_user_items.merge(df_user_reviews, on=['id', 'user_id'], how="left")

In [31]:
df_reviews_items

Unnamed: 0,id,playtime_forever,user_id,posted
0,10.0,6,76561197970982479,
1,30.0,7,76561197970982479,
2,300.0,4733,76561197970982479,
3,240.0,1853,76561197970982479,
4,3830.0,333,76561197970982479,
...,...,...,...,...
3286661,304930.0,677,76561198329548331,
3286662,227940.0,43,76561198329548331,
3286663,388490.0,3,76561198329548331,
3286664,521570.0,4,76561198329548331,


In [32]:
# Revisar si hay registros duplicados
df_reviews_items.drop_duplicates()


Unnamed: 0,id,playtime_forever,user_id,posted
0,10.0,6,76561197970982479,
1,30.0,7,76561197970982479,
2,300.0,4733,76561197970982479,
3,240.0,1853,76561197970982479,
4,3830.0,333,76561197970982479,
...,...,...,...,...
3286661,304930.0,677,76561198329548331,
3286662,227940.0,43,76561198329548331,
3286663,388490.0,3,76561198329548331,
3286664,521570.0,4,76561198329548331,


In [33]:
# Unir los Dataframes de steam_games y reviews_items para agregar el género
df_completo = pd.merge(df_reviews_items, df_steam_games, on='id', how='left')

In [34]:
df_completo

Unnamed: 0,id,playtime_forever,user_id,posted,genre
0,10.0,6,76561197970982479,,Action
1,30.0,7,76561197970982479,,Action
2,300.0,4733,76561197970982479,,Action
3,240.0,1853,76561197970982479,,Action
4,3830.0,333,76561197970982479,,Action
...,...,...,...,...,...
7414852,388490.0,3,76561198329548331,,Free to Play
7414853,521570.0,4,76561198329548331,,Casual
7414854,521570.0,4,76561198329548331,,Free to Play
7414855,521570.0,4,76561198329548331,,Indie


(Tiene sentido el aumento de filas, debido a que un mismo juego se encuadra en más de un género)

In [35]:
df_completo.drop_duplicates()

Unnamed: 0,id,playtime_forever,user_id,posted,genre
0,10.0,6,76561197970982479,,Action
1,30.0,7,76561197970982479,,Action
2,300.0,4733,76561197970982479,,Action
3,240.0,1853,76561197970982479,,Action
4,3830.0,333,76561197970982479,,Action
...,...,...,...,...,...
7414852,388490.0,3,76561198329548331,,Free to Play
7414853,521570.0,4,76561198329548331,,Casual
7414854,521570.0,4,76561198329548331,,Free to Play
7414855,521570.0,4,76561198329548331,,Indie


In [37]:
# Completar con un valor entero por defecto los NaN del año de posteo
df_completo['posted'].fillna(1, inplace=True)


In [38]:
# Convertir a tipo de dato entero la columna del año de posteo
df_completo['posted'] = df_completo['posted'].astype(int)


In [39]:
df_completo

Unnamed: 0,id,playtime_forever,user_id,posted,genre
0,10.0,6,76561197970982479,1,Action
1,30.0,7,76561197970982479,1,Action
2,300.0,4733,76561197970982479,1,Action
3,240.0,1853,76561197970982479,1,Action
4,3830.0,333,76561197970982479,1,Action
...,...,...,...,...,...
7414852,388490.0,3,76561198329548331,1,Free to Play
7414853,521570.0,4,76561198329548331,1,Casual
7414854,521570.0,4,76561198329548331,1,Free to Play
7414855,521570.0,4,76561198329548331,1,Indie


In [40]:
df_completo["posted"].unique()

array([   1, 2011, 2013, 2014, 2015, 2012, 2010])

(Los registros vacíos de año se llenaron intencionalmente con valor 1, para convertir la columna a entero, pero no sirve para nuestro análisis que en el año aparezca "1". Las opciones son, eliminar los datos que contengan año = 1, llenarlos con el valor de uno de los años de los que dispongo, o **el criterio elegido en este caso, introducir el texto "sin dato de año"**)

In [41]:
df_completo['posted'] = df_completo['posted'].replace(1, 'sin dato de año')


In [42]:
df_completo["posted"].unique()

array(['sin dato de año', 2011, 2013, 2014, 2015, 2012, 2010],
      dtype=object)

En este punto se hace una división del proceso. Para reducir el tamaño de los archivos a cargar en el repositorio, y debido a que la consulta N°2 es compuesta (se necesitan 2 grupos de datos), se van a crear dos archivos .csv

Vamos a crear el primer .csv, que contendrá el usuario con más horas jugada para el género elegido.

In [43]:
# Transformar el Dataframe sumando el tiempo que cada usuario jugó en cada género
df_completo_sum_genre = df_completo.groupby(['user_id', 'genre'])['playtime_forever'].sum().reset_index()

In [50]:
df_completo_sum_genre

Unnamed: 0,user_id,genre,playtime_forever
0,--000--,Action,139469
1,--000--,Adventure,11722
2,--000--,Casual,16135
3,--000--,Early Access,531
4,--000--,Free to Play,20448
...,...,...,...
631126,zzzmidmiss,RPG,2337
631127,zzzmidmiss,Racing,9
631128,zzzmidmiss,Simulation,16
631129,zzzmidmiss,Sports,210


In [51]:
# Encontrar para cada género cual es el usuario que tiene más tiempo jugado.
df_completo_sum_genre = df_completo_sum_genre.groupby('genre').apply(lambda x: x[x['playtime_forever'] == x['playtime_forever'].max()])

In [52]:
df_completo_sum_genre

Unnamed: 0_level_0,Unnamed: 1_level_0,user_id,genre,playtime_forever
genre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Action,457194,Sp3ctre,Action,1699307
Adventure,444565,REBAS_AS_F-T,Adventure,2191551
Animation &amp; Modeling,451387,ScottyG555,Animation &amp; Modeling,168314
Audio Production,421444,Lickidactyl,Audio Production,109916
Casual,444566,REBAS_AS_F-T,Casual,1224933
Design &amp; Illustration,451389,ScottyG555,Design &amp; Illustration,168314
Early Access,16913,76561197978756659,Early Access,316969
Education,152169,76561198059330972,Education,65427
Free to Play,537503,idonothack,Free to Play,808241
Indie,444569,REBAS_AS_F-T,Indie,2402994


In [56]:
# Exportar el primer .csv para las consultas
df_completo_sum_genre.to_csv("UserForGenre_1.csv", index = False)

In [82]:
# Verificar el .csv
df_2da_parte = pd.read_csv("UserForGenre_1.csv")

In [83]:
df_2da_parte

Unnamed: 0,user_id,genre,playtime_forever
0,Sp3ctre,Action,1699307
1,REBAS_AS_F-T,Adventure,2191551
2,ScottyG555,Animation &amp; Modeling,168314
3,Lickidactyl,Audio Production,109916
4,REBAS_AS_F-T,Casual,1224933
5,ScottyG555,Design &amp; Illustration,168314
6,76561197978756659,Early Access,316969
7,76561198059330972,Education,65427
8,idonothack,Free to Play,808241
9,REBAS_AS_F-T,Indie,2402994


In [84]:
# Verifico si hay usuarios que están en más de una categoría. Si son menos de 20 es porque SI.
df_2da_parte["user_id"].nunique()

15

Vamos a crear el segundo .csv, que contendrá las horas jugadas por año para los usuarios top de la lista de usuarios con más horas jugadas por género.

In [85]:
df_2da_parte

Unnamed: 0,user_id,genre,playtime_forever
0,Sp3ctre,Action,1699307
1,REBAS_AS_F-T,Adventure,2191551
2,ScottyG555,Animation &amp; Modeling,168314
3,Lickidactyl,Audio Production,109916
4,REBAS_AS_F-T,Casual,1224933
5,ScottyG555,Design &amp; Illustration,168314
6,76561197978756659,Early Access,316969
7,76561198059330972,Education,65427
8,idonothack,Free to Play,808241
9,REBAS_AS_F-T,Indie,2402994


In [86]:
# Eliminar la columna de horas jugadas para luego usar el Dataframe como filtro del Dataframe completo
df_2da_parte.drop("playtime_forever", axis=1, inplace=True)

In [87]:
df_2da_parte

Unnamed: 0,user_id,genre
0,Sp3ctre,Action
1,REBAS_AS_F-T,Adventure
2,ScottyG555,Animation &amp; Modeling
3,Lickidactyl,Audio Production
4,REBAS_AS_F-T,Casual
5,ScottyG555,Design &amp; Illustration
6,76561197978756659,Early Access
7,76561198059330972,Education
8,idonothack,Free to Play
9,REBAS_AS_F-T,Indie


In [88]:
df_completo_sum_anio = df_2da_parte.merge(df_completo, on=['user_id', 'genre'], how="left")

In [89]:
df_completo_sum_anio

Unnamed: 0,user_id,genre,id,playtime_forever,posted
0,Sp3ctre,Action,300.0,249,sin dato de año
1,Sp3ctre,Action,240.0,122426,sin dato de año
2,Sp3ctre,Action,2620.0,7673,sin dato de año
3,Sp3ctre,Action,2630.0,21339,sin dato de año
4,Sp3ctre,Action,2640.0,4561,sin dato de año
...,...,...,...,...,...
1921,76561198073642113,Utilities,268850.0,207651,sin dato de año
1922,ScottyG555,Video Production,365670.0,168314,sin dato de año
1923,Xyphien,Web Publishing,220700.0,64657,sin dato de año
1924,Xyphien,Web Publishing,235900.0,7296,sin dato de año


In [90]:
# Transformar el Dataframe sumando el tiempo que cada usuario jugó en cada género y en cada año
df_completo_sum_anio = df_completo_sum_anio.groupby(['user_id', 'genre', 'posted'])['playtime_forever'].sum().reset_index()

In [91]:
df_completo_sum_anio

Unnamed: 0,user_id,genre,posted,playtime_forever
0,29123,Sports,2015,252888
1,76561197978756659,Early Access,sin dato de año,316969
2,76561198059330972,Education,2015,65427
3,76561198063648921,Simulation,2015,1156408
4,76561198063648921,Simulation,sin dato de año,47546
5,76561198073642113,Utilities,sin dato de año,207651
6,DownSyndromeKid,Racing,sin dato de año,743445
7,Evilutional,Massively Multiplayer,sin dato de año,688260
8,Lickidactyl,Audio Production,sin dato de año,109916
9,Lickidactyl,Software Training,sin dato de año,109916


In [92]:
# Exportar el segundo .csv para las consultas
df_completo_sum_anio.to_csv("UserForGenre_2.csv", index = False)

In [94]:
# Verificar el .csv
df = pd.read_csv("UserForGenre_2.csv")
df

Unnamed: 0,user_id,genre,posted,playtime_forever
0,29123,Sports,2015,252888
1,76561197978756659,Early Access,sin dato de año,316969
2,76561198059330972,Education,2015,65427
3,76561198063648921,Simulation,2015,1156408
4,76561198063648921,Simulation,sin dato de año,47546
5,76561198073642113,Utilities,sin dato de año,207651
6,DownSyndromeKid,Racing,sin dato de año,743445
7,Evilutional,Massively Multiplayer,sin dato de año,688260
8,Lickidactyl,Audio Production,sin dato de año,109916
9,Lickidactyl,Software Training,sin dato de año,109916
