# Funciones: MLOps

## Importacion de las librerias y los datos

In [1]:
# Importamos las librerias correspondientes
import pandas as pd
import numpy as np

In [2]:
# Leemos los dataset exportados con anterioridad
games= pd.read_parquet('Dataset_ETL/steam_games.parquet',engine='pyarrow')
reviews=pd.read_parquet('Dataset_ETL/user_reviews.parquet',engine='pyarrow')
items=pd.read_parquet('Dataset_ETL/users_items.parquet',engine='pyarrow')

In [3]:
games.head()

Unnamed: 0,publisher,genres,app_name,release_date,price,id,developer,average price
0,Kotoshiro,"[Action, Casual, Indie, Simulation, Strategy]",Lost Summoner Kitty,2018-01-04,4.99,761140,Kotoshiro,3.473871
1,"Making Fun, Inc.","[Free to Play, Indie, RPG, Strategy]",Ironbound,2018-01-04,25.29,643980,Secret Level SRL,25.29
3,彼岸领域,"[Action, Adventure, Casual]",弹炸人2222,2017-12-07,0.99,767400,彼岸领域,6.607647
4,Trickjump Games Ltd,"[Action, Adventure, Simulation]",Battle Royale Trainer,2018-01-04,3.99,772540,Trickjump Games Ltd,7.823333
5,Poppermost Productions,"[Free to Play, Indie, Simulation, Sports]",SNOW - All Access Basic Pass,2018-01-04,9.99,774276,Poppermost Productions,26.79


In [4]:
games[games.app_name == 'Counter-Strike']

Unnamed: 0,publisher,genres,app_name,release_date,price,id,developer,average price
27493,Valve,[Action],Counter-Strike,2000-11-01,9.99,10,Valve,9.1612


In [4]:
games.columns

Index(['publisher', 'genres', 'app_name', 'release_date', 'price', 'id',
       'developer', 'average price'],
      dtype='object')

In [5]:
reviews.head()

Unnamed: 0,user_id,item_id,recommend,sentiment_analysis
0,76561197970982479,1250,True,2
1,76561197970982479,22200,True,2
2,76561197970982479,43110,True,1
3,js41637,251610,True,2
4,js41637,227300,True,1


In [6]:
items.head()

Unnamed: 0,user_id,items_count,steam_id,item_id,item_name,playtime_forever,playtime_2weeks
0,76561197970982479,277,76561197970982479,10,Counter-Strike,6.0,0.0
1,76561197970982479,277,76561197970982479,20,Team Fortress Classic,0.0,0.0
2,76561197970982479,277,76561197970982479,30,Day Of Defeat,7.0,0.0
3,76561197970982479,277,76561197970982479,40,Deathmatch Classic,0.0,0.0
4,76561197970982479,277,76561197970982479,50,Half-Life: Opposing Force,0.0,0.0


## Función 4: best_developer_year
+ def **best_developer_year( *`año` : int* )**:
   Devuelve el top 3 de desarrolladores con juegos MÁS recomendados por usuarios para el año dado. (reviews.recommend = True y comentarios positivos)
   
Ejemplo de retorno: [{"Puesto 1" : X}, {"Puesto 2" : Y},{"Puesto 3" : Z}]

In [5]:
# Se reañoza la acaptura de los datos
df_f4=pd.merge(games,reviews,how='inner',left_on='id',right_on='item_id')

In [10]:
# Cambiamos el formato de las fechas por la correcta
df_f4['release_date'] = pd.to_datetime(df_f4.release_date, format='mixed')

In [12]:
df_f4.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49080 entries, 0 to 49079
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   publisher           49080 non-null  object        
 1   genres              49080 non-null  object        
 2   app_name            49080 non-null  object        
 3   release_date        49080 non-null  datetime64[ns]
 4   price               49080 non-null  float64       
 5   id                  49080 non-null  object        
 6   developer           49080 non-null  object        
 7   average price       49080 non-null  float64       
 8   user_id             49080 non-null  object        
 9   item_id             49080 non-null  object        
 10  recommend           49080 non-null  bool          
 11  sentiment_analysis  49080 non-null  int64         
dtypes: bool(1), datetime64[ns](1), float64(2), int64(1), object(7)
memory usage: 4.2+ MB


## Función 3: UseForGenre
+ def **UserForGenre( *`genero` : str* )**:
    Debe devolver el usuario que acumula más horas jugadas para el género dado y una lista de la acumulación de horas jugadas por año de lanzamiento.

Ejemplo de retorno: {"Usuario con más horas jugadas para Género X" : us213ndjss09sdf,
			     "Horas jugadas":[{Año: 2013, Horas: 203}, {Año: 2012, Horas: 100}, {Año: 2011, Horas: 23}]}

In [7]:
# Realizamos la captura de los datos a variables establcidas
df1_f3=games.copy()
df2_f3=items.copy()

In [8]:
# unimos los DataFrames captados
df3_f3=pd.merge(df2_f3,df1_f3,left_on='item_name',right_on='app_name',how='inner')

In [9]:
# Escogemos las columnas que solamente nos van a ayudar con el analisis
df3_f3=df3_f3.loc[:,['user_id','item_name','genres','playtime_forever','release_date']]
df3_f3

Unnamed: 0,user_id,item_name,genres,playtime_forever,release_date
0,76561197970982479,Counter-Strike,[Action],6.0,2000-11-01
1,76561197970982479,Team Fortress Classic,[Action],0.0,1999-04-01
2,76561197970982479,Deathmatch Classic,[Action],0.0,2001-06-01
3,76561197970982479,Half-Life: Opposing Force,[Action],0.0,1999-11-01
4,76561197970982479,Ricochet,[Action],0.0,2000-11-01
...,...,...,...,...,...
2146979,76561198326700687,You Have 10 Seconds 2,"[Casual, Free to Play, Indie]",0.0,2016-08-24
2146980,76561198329548331,Unturned,"[Action, Adventure, Casual, Free to Play, Indie]",677.0,2017-07-07
2146981,76561198329548331,Heroes & Generals,"[Action, Free to Play, Indie, Massively Multip...",43.0,2016-10-18
2146982,76561198329548331,One Way To Die: Steam Edition,"[Adventure, Free to Play]",3.0,2015-09-01


In [10]:
# Realizamos el desmenuzamiento de los generos
df3_f3=df3_f3.explode('genres')
# Reiniciamos los indices de la tabla
df3_f3.reset_index(drop=True,inplace=True)

In [11]:
# Damos el formato correcto a la columna de fechas
df3_f3['release_date']=pd.to_datetime(df3_f3['release_date'],format='%Y-%m-%d', errors='coerce')
# Se crea otra columna con los años de la columna con formato fecha
df3_f3['year']= df3_f3.release_date.dt.year

In [12]:
# Realizamos el agrupamiento y el ordenamiento
# Esto para conocer el usuario con mayor horas jugadas
df3_f3_agrupados=df3_f3.groupby(['genres','user_id'])['playtime_forever'].sum().reset_index()
df3_f3_ordenados=df3_f3_agrupados.sort_values(['genres','playtime_forever'],ascending=[True,False])
df3_f3_top=df3_f3_ordenados.drop_duplicates(subset='genres',keep='first')
df3_f3_top.reset_index(drop=True,inplace=True)
df3_f3_top.genres.replace('Animation &amp; Modeling','Animation & Modeling',inplace=True)
df3_f3_top.genres.replace('Design &amp; Illustration','Design & Illustration',inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df3_f3_top.genres.replace('Animation &amp; Modeling','Animation & Modeling',inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df3_f3_top.genres.replace('Animation &amp; Modeling','Animation & Modeling',inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)',

In [13]:
# Usuarios de cada genero con mayor cantidad de horas jugadas
df3_f3_top

Unnamed: 0,genres,user_id,playtime_forever
0,Action,Sp3ctre,1046700.0
1,Adventure,REBAS_AS_F-T,1171678.0
2,Animation & Modeling,76561198059330972,66104.0
3,Audio Production,76561197992771118,3719.0
4,Casual,REBAS_AS_F-T,791494.0
5,Design & Illustration,ryanalcock,40925.0
6,Early Access,76561197978756659,299374.0
7,Education,76561198059330972,65427.0
8,Free to Play,idonothack,511864.0
9,Indie,REBAS_AS_F-T,1569198.0


Exportamos el primer dataset de la funcion

In [99]:
df3_f3_top.to_parquet('df3_UserForGenre_1.parquet')

In [82]:
# Realizamos el agrupamiento por genero, usuario y por año de las horas jugadas
df3_f3_agrupados_anio=df3_f3.groupby(['genres','user_id','year'])['playtime_forever'].sum().reset_index()

Exportamos el segundo dataset de la funcion

In [102]:
df3_f3_agrupados_anio.to_parquet('df3_UserForGenre_2.parquet')

In [93]:
# Se realiza una prueba para saber las horas jugadas por cada año
genero='Action'
usuario='shinomegami'
condicion=(df3_f3_agrupados_anio['genres'] == genero)&(df3_f3_agrupados_anio['user_id'] == usuario)
usuario_anios=df3_f3_agrupados_anio[condicion]
usuario_anios=usuario_anios.loc[:,['year','playtime_forever']].sort_values('year',ascending=False)
usuario_anios.columns=['Año','Horas']

In [94]:
d = usuario_anios.to_dict(orient='records')

[{'Año': 2017.0, 'Horas': 135.0},
 {'Año': 2016.0, 'Horas': 42563.0},
 {'Año': 2015.0, 'Horas': 101449.0},
 {'Año': 2014.0, 'Horas': 92080.0},
 {'Año': 2013.0, 'Horas': 146492.0},
 {'Año': 2012.0, 'Horas': 18284.0},
 {'Año': 2011.0, 'Horas': 89382.0},
 {'Año': 2010.0, 'Horas': 9405.0},
 {'Año': 2009.0, 'Horas': 209805.0},
 {'Año': 2008.0, 'Horas': 180.0},
 {'Año': 2007.0, 'Horas': 68354.0},
 {'Año': 2006.0, 'Horas': 2043.0},
 {'Año': 2005.0, 'Horas': 343.0},
 {'Año': 2004.0, 'Horas': 120.0},
 {'Año': 2003.0, 'Horas': 532756.0},
 {'Año': 2002.0, 'Horas': 0.0},
 {'Año': 2001.0, 'Horas': 2429.0},
 {'Año': 2000.0, 'Horas': 10775.0},
 {'Año': 1999.0, 'Horas': 303.0},
 {'Año': 1998.0, 'Horas': 3716.0},
 {'Año': 1997.0, 'Horas': 99.0},
 {'Año': 1996.0, 'Horas': 1161.0},
 {'Año': 1995.0, 'Horas': 2.0},
 {'Año': 1994.0, 'Horas': 0.0},
 {'Año': 1993.0, 'Horas': 0.0},
 {'Año': 1992.0, 'Horas': 0.0},
 {'Año': 1991.0, 'Horas': 0.0},
 {'Año': 1988.0, 'Horas': 136.0}]

In [63]:
df3_f3

Unnamed: 0,user_id,item_name,genres,playtime_forever,release_date,year
0,76561197970982479,Counter-Strike,Action,6.0,2000-11-01,2000.0
1,76561197970982479,Team Fortress Classic,Action,0.0,1999-04-01,1999.0
2,76561197970982479,Day of Defeat,Action,7.0,2003-05-01,2003.0
3,76561197970982479,Deathmatch Classic,Action,0.0,2001-06-01,2001.0
4,76561197970982479,Half-Life: Opposing Force,Action,0.0,1999-11-01,1999.0
...,...,...,...,...,...,...
7674284,76561198329548331,One Way To Die: Steam Edition,Adventure,3.0,2015-09-01,2015.0
7674285,76561198329548331,One Way To Die: Steam Edition,Free to Play,3.0,2015-09-01,2015.0
7674286,76561198329548331,You Have 10 Seconds 2,Casual,4.0,2016-08-24,2016.0
7674287,76561198329548331,You Have 10 Seconds 2,Free to Play,4.0,2016-08-24,2016.0


Funcion

In [15]:
df3_1=pd.read_parquet('Dataset_funciones/df3_UserForGenre_1.parquet')
df3_2=pd.read_parquet('Dataset_funciones/df3_UserForGenre_2.parquet')

In [16]:
def UserForGenre(genero:str):
    condicion_1= (df3_1['genres'] == genero)
    seleccion=df3_1[condicion_1]
    usuario=seleccion.iloc[0,1]
    tiempo_total=seleccion.iloc[0,2]

    condicion_2=(df3_2['genres'] == genero)&(df3_2['user_id'] == usuario)
    tiempo_anio=df3_2[condicion_2]
    tiempo_anio=tiempo_anio.loc[:,['year','playtime_forever']].sort_values('year',ascending=False)
    tiempo_anio.columns=['Año','Horas']

    anios_dict = tiempo_anio.to_dict(orient='records')

    res={
        'Usuario con más horas jugadas para el Género ' + genero: usuario,
        'Hojas jugadas': anios_dict
    }

    return res

In [17]:
UserForGenre('RPG')

{'Usuario con más horas jugadas para el Género RPG': 'shinomegami',
 'Hojas jugadas': [{'Año': 2017.0, 'Horas': 0.0},
  {'Año': 2016.0, 'Horas': 14229.0},
  {'Año': 2015.0, 'Horas': 110927.0},
  {'Año': 2014.0, 'Horas': 76913.0},
  {'Año': 2013.0, 'Horas': 105733.0},
  {'Año': 2012.0, 'Horas': 10291.0},
  {'Año': 2011.0, 'Horas': 16764.0},
  {'Año': 2010.0, 'Horas': 4128.0},
  {'Año': 2009.0, 'Horas': 1382.0},
  {'Año': 2008.0, 'Horas': 1305.0},
  {'Año': 2007.0, 'Horas': 135020.0},
  {'Año': 2006.0, 'Horas': 1886.0},
  {'Año': 2005.0, 'Horas': 185.0},
  {'Año': 2004.0, 'Horas': 0.0},
  {'Año': 2003.0, 'Horas': 530943.0},
  {'Año': 2002.0, 'Horas': 0.0},
  {'Año': 2001.0, 'Horas': 0.0},
  {'Año': 2000.0, 'Horas': 0.0},
  {'Año': 1999.0, 'Horas': 377.0},
  {'Año': 1986.0, 'Horas': 1.0}]}

## Función 2: userdata
+ def **userdata( *`User_id` : str* )**:
    Debe devolver `cantidad` de dinero gastado por el usuario, el `porcentaje` de recomendación en base a reviews.recommend y `cantidad de items`.

Ejemplo de retorno: {"Usuario X" : us213ndjss09sdf, "Dinero gastado": 200 USD, "% de recomendación": 20%, "cantidad de items": 5}

In [8]:
df1=items.loc[:,['user_id','item_id','item_name','items_count']]
df2=reviews.loc[:,['user_id','recommend']]
df3=games.loc[:,['price','app_name','id']]

In [9]:
recomendacion=df2.groupby('user_id')['recommend'].value_counts(normalize=True)*100

In [10]:
recomendacion=recomendacion.reset_index()

In [11]:
recomendacion = recomendacion[recomendacion['recommend'] == True]

In [12]:
recomendacion['recommend'].value_counts()

recommend
True    24124
Name: count, dtype: Int64

In [13]:
recomendacion.tail()

Unnamed: 0,user_id,recommend,proportion
29137,zwanzigdrei,True,100.0
29138,zy0705,True,100.0
29139,zynxgameth,True,100.0
29140,zyr0n1c,True,100.0
29141,zzoptimuszz,True,100.0


In [14]:
df2.recommend.value_counts()

recommend
True     52473
False     6832
Name: count, dtype: Int64

In [15]:
union_1=pd.merge(df1,df3,left_on="item_name",right_on="app_name",how="inner")

In [16]:
gastos = union_1.groupby('user_id')['price'].sum()
cant_items= union_1.groupby('user_id')['item_id'].count()

In [17]:
gastos
cant_items

user_id
--000--              36
--ace--              31
--ionex--            13
-2SV-vuLB-Kg         47
-404PageNotFound-    77
                     ..
zzonci                1
zzoptimuszz          34
zzydrax              12
zzyfo                42
zzzmidmiss           30
Name: item_id, Length: 67973, dtype: int64

In [18]:
gastos=gastos.reset_index()
cant_items=cant_items.reset_index()

In [19]:
df_userdata=pd.merge(gastos,cant_items,on='user_id',how='inner')
df_userdata=pd.merge(df_userdata,recomendacion,on='user_id',how='inner')

In [20]:
df_userdata.to_parquet('df2_userdata.parquet')

In [21]:
df_userdata.tail()

Unnamed: 0,user_id,price,item_id,recommend,proportion
21409,zwanzigdrei,690.745297,50,True,100.0
21410,zy0705,67.16,4,True,100.0
21411,zynxgameth,502.373761,40,True,100.0
21412,zyr0n1c,711.85611,50,True,100.0
21413,zzoptimuszz,683.547185,34,True,100.0


In [22]:
usuario=df_userdata[df_userdata['user_id'] == '-2SV-vuLB-Kg']

In [23]:
# usuario.price.iloc[0]

# gastos=int(usuario.price.iloc[0])
# gastos=str(gastos) + ' USD'

# recomendacion=str(int(usuario.proportion.iloc[0])) + '%'
# recomendacion

# cant_items=usuario.item_id.iloc[0]
# cant_items

num_usuario='Usuario '+str(usuario.index[0] + 1)
num_usuario

'Usuario 4'

Funcion

In [90]:
def userdata(User_id:str):
    usuario=df_userdata[df_userdata['user_id'] == User_id]

    num_usuario='Usuario '+str(usuario.index[0] + 1)

    dinero_gastado=int(usuario.price.iloc[0])
    dinero_gastado=str(dinero_gastado) + ' USD'

    recomendacion=str(int(usuario.proportion.iloc[0])) + '%'

    cant_items=usuario.item_id.iloc[0]

    res={
        num_usuario: User_id,
        "Dinero gastado": dinero_gastado,
        "% de recomendación": recomendacion,
        "cantidad de items": cant_items
    }
    return res

In [91]:
userdata('-2SV-vuLB-Kg')

{'Usuario 4': '-2SV-vuLB-Kg',
 'Dinero gastado': '383 USD',
 '% de recomendación': '100%',
 'cantidad de items': 47}

## Funcion 1: developer()
+ def **developer( *`desarrollador` : str* )**:
    `Cantidad` de items y `porcentaje` de contenido Free por año según empresa desarrolladora. 
Ejemplo de retorno:

| Año  | Cantidad de Items | Contenido Free  |
|------|-------------------|------------------|
| 2023 | 50                | 27%              |
| 2022 | 45                | 25%              |
| xxxx | xx                | xx%              |

Importación de datos

In [32]:
# Importamos el DataFrame a archivo .parquet
df_developer= games.copy()

In [33]:
# Se eliminan las variables que no ayudan a la formación de la funcion
df_developer.drop(columns=['publisher','app_name','price','average price'],inplace=True)

# Se realiza el cambio de formato de fecha sin contar con los errores
df_developer['release_date'] = pd.to_datetime(df_developer['release_date'],format='%Y-%m-%d', errors='coerce')

# Se crea otra columna con los años de la columna con formato fecha
df_developer['year']= df_developer.release_date.dt.year

# agregamos una columna que me haga conocer si hay FREE TO PLAY
df_developer['free']= df_developer['genres'].apply(lambda x: 'yes' if 'Free to Play' in x else 'no')

# Eliminamos genres y release_date por no ser necesarios al df de la funcion
df_developer.drop(columns=['genres','release_date'],inplace=True)

In [34]:
df_developer.head()

Unnamed: 0_level_0,id,developer,year,free
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,761140,Kotoshiro,2018.0,no
1,643980,Secret Level SRL,2018.0,yes
3,767400,彼岸领域,2017.0,no
4,772540,Trickjump Games Ltd,2018.0,no
5,774276,Poppermost Productions,2018.0,yes


Exportación del dataset para la funcion 1

In [20]:
df_developer.to_parquet('df1_developer.parquet')

In [93]:
developer= pd.read_parquet('df1_developer.parquet')

In [94]:
developer

Unnamed: 0_level_0,id,developer,year,free
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,761140,Kotoshiro,2018.0,no
1,643980,Secret Level SRL,2018.0,yes
3,767400,彼岸领域,2017.0,no
4,772540,Trickjump Games Ltd,2018.0,no
5,774276,Poppermost Productions,2018.0,yes
...,...,...,...,...
27508,745400,Bidoniera Games,2018.0,no
27509,773640,"Nikita ""Ghost_RUS""",2018.0,no
27510,733530,Sacada,2018.0,no
27511,610660,Laush Dmitriy Sergeevich,2018.0,no


In [33]:
developer('Valve')

Unnamed: 0,Año,Cantidad de Items,Contenido Free
0,2017,2,50.0%
1,2016,1,0.0%
2,2012,1,0.0%
3,2011,1,0.0%
4,2010,2,0.0%
5,2009,1,0.0%
6,2008,1,0.0%
7,2007,3,33.33%
8,2006,2,0.0%
9,2004,5,0.0%


In [42]:
developer('Valve').to_dict(orient='records')

[{'Año': 2017, 'Cantidad de Items': 2, 'Contenido Free': '50.0%'},
 {'Año': 2016, 'Cantidad de Items': 1, 'Contenido Free': '0.0%'},
 {'Año': 2012, 'Cantidad de Items': 1, 'Contenido Free': '0.0%'},
 {'Año': 2011, 'Cantidad de Items': 1, 'Contenido Free': '0.0%'},
 {'Año': 2010, 'Cantidad de Items': 2, 'Contenido Free': '0.0%'},
 {'Año': 2009, 'Cantidad de Items': 1, 'Contenido Free': '0.0%'},
 {'Año': 2008, 'Cantidad de Items': 1, 'Contenido Free': '0.0%'},
 {'Año': 2007, 'Cantidad de Items': 3, 'Contenido Free': '33.33%'},
 {'Año': 2006, 'Cantidad de Items': 2, 'Contenido Free': '0.0%'},
 {'Año': 2004, 'Cantidad de Items': 5, 'Contenido Free': '0.0%'},
 {'Año': 2003, 'Cantidad de Items': 1, 'Contenido Free': '0.0%'},
 {'Año': 2001, 'Cantidad de Items': 1, 'Contenido Free': '0.0%'},
 {'Año': 2000, 'Cantidad de Items': 2, 'Contenido Free': '0.0%'},
 {'Año': 1999, 'Cantidad de Items': 1, 'Contenido Free': '0.0%'},
 {'Año': 1998, 'Cantidad de Items': 1, 'Contenido Free': '0.0%'}]

In [5]:
# Se toma otra variable con el nombre del desarrollador
games_anio_desa= games_anio[games_anio['developer'] == 'Valve']

In [6]:
# La cantidad de entregas que hay por año
games_anio_ordenado= games.groupby('year')['app_name'].count().sort_index(ascending=False)
games_anio_ordenado= games_anio_ordenado.reset_index()
games_anio_ordenado.columns= ['Año','Cantidad de Items']

In [8]:
contenido_free= games_anio_desa.groupby('year')['free'].value_counts(normalize=True).sort_index(ascending=False)*100
contenido_free= contenido_free.reset_index()
contenido_free= contenido_free[contenido_free['free'] == 'yes']
contenido_free.columns= ['Año','yes_no','Contenido Free']

In [9]:
resultado= pd.merge(games_anio_ordenado, contenido_free, on='Año', how='left')
resultado['Contenido Free']= resultado['Contenido Free'].fillna(0)
resultado['Contenido Free']= resultado['Contenido Free'].apply(lambda x: str(round(x,2)) + '%')
resultado['Año']= resultado['Año'].apply(lambda x: int(x))
resultado.drop(columns= ['yes_no'], inplace= True)

In [10]:
resultado

Unnamed: 0,Año,Cantidad de Items,Contenido Free
0,2021,1,0.0%
1,2019,1,0.0%
2,2018,67,0.0%
3,2017,8972,50.0%
4,2016,6455,0.0%
5,2015,4401,0.0%
6,2014,2499,0.0%
7,2013,1408,0.0%
8,2012,1096,0.0%
9,2011,524,0.0%


Función

In [None]:
def developer(desarrollador:str):
    # EXPLORATORY DATA ANALYSIS (EDA)
    # importamos los valores
    developer= pd.read_parquet('df1_developer.parquet')


    # obtenemos el dataframe segun el desarrollador
    developer= developer[developer['developer'] == desarrollador]

    # La cantidad de entregas que hay por año
    games_anio_ordenado= developer.groupby('year')['id'].count().sort_index(ascending=False)
    games_anio_ordenado= games_anio_ordenado.reset_index()  # se convierte los indices en columnas 
    games_anio_ordenado.columns= ['Año','Cantidad de Items']  # cambiamos el nombre de las columnas



    # realizamos la agrupacion y contamos los elemnentos por año y por ser 'Free to Play' 
    contenido_free= developer.groupby('year')['free'].value_counts(normalize=True).sort_index(ascending=False)*100
    contenido_free= contenido_free.reset_index()  # Se colocan los indices como columnas
    contenido_free= contenido_free[contenido_free['free'] == 'yes']  # Se realiza el filtro con solo los 'yes'
    contenido_free.columns= ['Año','yes_no','Contenido Free']  # Se cambia el nombre de las columnas
    

    # realizamos el juntar la tabla de las cantidad de items y porcentaje de contenido Free
    # tambien se realizan otras modificaciones al llenar con ceros los 'NaN', eliminacion de la columna 'yes_no'
    resultado= pd.merge(games_anio_ordenado, contenido_free, on='Año', how='left')
    resultado['Contenido Free']= resultado['Contenido Free'].fillna(0)
    resultado['Contenido Free']= resultado['Contenido Free'].apply(lambda x: str(round(x,2)) + '%')
    resultado['Año']= resultado['Año'].apply(lambda x: int(x))
    resultado.drop(columns= ['yes_no'], inplace= True)
    
    return resultado