In [2]:
import pandas as pd
from sqlalchemy import create_engine
from sqlalchemy.sql import func

In [3]:
def actualizarTablaDimension(engine, table, data, pk="id"):
    """
    Esta función actualiza una tabla de dimensión de un DW con los datos nuevos. Si los datos
    ya existen en la tabla, no se agregan. Devuelve la tabla actualizada con los pk tal cual esta
    en la base de datos.

    La tabla de dimensión debe estar creada y las columnas deben llamarse igual que en el df.

    Parametros:
        engine: engine de la base de datos
        table: nombre de la tabla
        data: datafarme de datos nuevos a agregar, sin incluir la PK
        pk: nombre de la PK. Por defecto es "ID"

    Retorno:
        dimension_df: datafarme con la tabla según está en la DB con los datos nuevos agregados.

    """
    with engine.connect() as conn, conn.begin():
        old_data = pd.read_sql_table(table, conn)

        # Borro la columna pk
        old_data.drop(pk, axis=1, inplace=True)

        # new_data es el datafarme de datos diferencia de conjunto con old_data
        new_data = data[~data.stack().isin(old_data.stack().values).unstack().astype(bool)].dropna()

        # insertar new_data
        new_data.to_sql(table, conn, if_exists='append', index=False)

        # buscar como quedó la tabla
        dimension_df = pd.read_sql_table(table, conn)

    return dimension_df

## Conección a la base de datos

In [4]:
engine = create_engine('postgresql://postgres:nalasnowy@localhost:5432/DataBase_Epic')

## Carga y acondicionamiento de datos de los csv games y opne_critic

In [5]:
df_juegos = pd.read_csv("./DataSets/games.csv")
df_juegos.columns

Index(['id', 'name', 'game_slug', 'price', 'release_date', 'platform',
       'description', 'developer', 'publisher', 'genres'],
      dtype='object')

In [6]:
df_criticas = pd.read_csv("./DataSets/open_critic.csv")
df_criticas.columns

Index(['id', 'company', 'author', 'rating', 'comment', 'date', 'top_critic',
       'game_id'],
      dtype='object')

Me quedo con las columnas que son de interes para la base de datos

In [7]:
df_juegos_n = df_juegos[['id', 'name', 'game_slug', 'price', 'release_date', 'developer', 'publisher', 'genres']]

In [8]:
df_juegos_n.head()


Unnamed: 0,id,name,game_slug,price,release_date,developer,publisher,genres
0,4c81547b81064acfb1902be7b06d6366,Assassin's Creed® I: Director's Cut,assassins-creed-1,1999,2008-04-09T15:00:00.000Z,Ubisoft,Ubisoft,"ACTION,RPG"
1,3fdbd69050ec4091a68481b397f0a5dd,LEGO® Batman™: The Videogame,lego-batman,1999,2008-09-28T15:00:00.000Z,Traveller's Tales,Warner Bros.,ACTION
2,5f82cbea3fdd42e2b9b9dfe8439b96b3,World of Goo,world-of-goo,1499,2008-10-13T15:00:00.000Z,2D Boy,2D Boy,"INDIE,PUZZLE"
3,497cdc35842e458ca10a1edae95ae181,Shadow Complex Remastered,shadow-complex,1499,2009-08-19T14:00:00.000Z,Epic Games,Epic Games,ACTION
4,0dfa5a4398bb44c8b1ac34e5f248fab9,Metro 2033 Redux,metro-2033-redux,1999,2010-03-16T15:00:00.000Z,4A Games,Deep Silver,"SHOOTER,FPS"


In [9]:
df_juegos_n.shape

(915, 8)

In [10]:
df_criticas_n = df_criticas[['id','company','author','rating','date','game_id']]

In [11]:
df_criticas_n.head()


Unnamed: 0,id,company,author,rating,date,game_id
0,62320d6a67855975e586e99b,Tom's Guide,Sherri L. Smith,90.0,2021-01-28T00:00:00.000Z,a3c78a5c62824677834c1008e0be9b2d
1,601129490f8974118c9391d8,Kinglink Reviews,Frank Reese,80.0,2020-11-23T00:00:00.000Z,a3c78a5c62824677834c1008e0be9b2d
2,610c52ff957b7bfbeb213867,Pure Xbox,PJ O'Reilly,100.0,2020-03-14T00:00:00.000Z,a3c78a5c62824677834c1008e0be9b2d
3,610c4fa3957b7bfbeb213850,Game Revolution,,100.0,2019-12-16T00:00:00.000Z,a3c78a5c62824677834c1008e0be9b2d
4,5df2816aad4f81777e1f5632,Gaming Nexus,Sean Cahill,90.0,2019-12-12T00:00:00.000Z,a3c78a5c62824677834c1008e0be9b2d


In [12]:
df_criticas_n.shape

(17584, 6)

Como solo  interesan los juegos que tienen críticas y coinciden con los registros de df_juegos_n,
se realiza  un merge (how='inner').

In [13]:
resultado_merge = pd.merge(df_criticas_n, df_juegos_n, left_on='game_id', right_on='id', how='inner')

In [14]:
resultado_merge.shape
resultado_merge.columns

Index(['id_x', 'company', 'author', 'rating', 'date', 'game_id', 'id_y',
       'name', 'game_slug', 'price', 'release_date', 'developer', 'publisher',
       'genres'],
      dtype='object')

Se procede a quitar as filas con campos nulos

In [15]:
df_sin_nulos = resultado_merge.dropna(subset=['developer', 'publisher', 'genres', 'rating','name','date','author','company'])
df_sin_nulos.shape

(12125, 14)

In [16]:
df_sin_nulos.columns

Index(['id_x', 'company', 'author', 'rating', 'date', 'game_id', 'id_y',
       'name', 'game_slug', 'price', 'release_date', 'developer', 'publisher',
       'genres'],
      dtype='object')

## Preparación de los datos para las dimensiones

### Dimension juego y dimensiones hijos

Dimension Desarrollador

In [17]:
dimension_desarrollador = pd.DataFrame(df_sin_nulos['developer'].unique(), columns=['developer'])
dimension_desarrollador

Unnamed: 0,developer
0,Rockstar Games
1,Supergiant Games
2,thatgamecompany
3,CD PROJEKT RED
4,Matt Makes Games
...,...
395,Hungry Couch Games
396,MonteBearo
397,Enodo Games
398,Nighthouse Games


In [18]:
dimension_desarrollador = actualizarTablaDimension(engine, 'dimension_desarrollador', dimension_desarrollador,pk='desarrollador_id')
dimension_desarrollador

Unnamed: 0,desarrollador_id,developer
0,1,Rockstar Games
1,2,Supergiant Games
2,3,thatgamecompany
3,4,CD PROJEKT RED
4,5,Matt Makes Games
...,...,...
395,396,Hungry Couch Games
396,397,MonteBearo
397,398,Enodo Games
398,399,Nighthouse Games


Dimension Publicador

In [19]:
dimension_publicador = pd.DataFrame(df_sin_nulos['publisher'].unique(), columns=['publisher'])
dimension_publicador

Unnamed: 0,publisher
0,Rockstar Games
1,Supergiant Games
2,Annapurna Interactive
3,CD PROJEKT S.A.
4,Matt Makes Games
...,...
253,Unit 2 Games
254,SOEDESCO
255,Dragonest Games
256,Dreamteck


In [20]:
dimension_publicador = actualizarTablaDimension(engine, 'dimension_publicador', dimension_publicador,pk='publicador_id')

## ------------------------------

In [21]:
cantidad_valores_unicos = dimension_desarrollador['developer'].nunique()
print("La dimensión 'developer' tiene", cantidad_valores_unicos, "valores únicos.")


La dimensión 'developer' tiene 400 valores únicos.


In [22]:
cantidad_valores_unicos = dimension_publicador['publisher'].nunique()
print("La dimensión 'developer' tiene", cantidad_valores_unicos, "valores únicos.")

La dimensión 'developer' tiene 258 valores únicos.


## ------------------------------

Dimension genero


In [23]:
dimension_genero = pd.DataFrame(df_sin_nulos['genres'].unique(), columns=['genres'])
dimension_genero

Unnamed: 0,genres
0,"NARRATION,ACTION,OPEN_WORLD"
1,"ACTION,RPG,ROGUE_LITE"
2,"CO_OP,INDIE"
3,"ACTION,ADVENTURE"
4,"RPG,OPEN_WORLD,ADVENTURE"
...,...
383,"ADVENTURE,NARRATION,FIRST_PERSON"
384,"ADVENTURE,RPG,SIMULATION"
385,"ADVENTURE,ARCADE,INDIE"
386,"CARD_GAME,STRATEGY,ROGUE_LIKE"


In [24]:
dimension_genero = actualizarTablaDimension(engine, 'dimension_genero', dimension_genero,pk='genero_id')

Dimension juego

Primero obtengo los juegos unicos basandome en que no se pueden repetir el nombre y el slug, luego realizao un mapeo para agregar al df las columnas necesarias

In [25]:
# Obtener juegos únicos de df_sin_nulos
juegos_unicos = df_sin_nulos.drop_duplicates(subset=['name', 'game_slug'])[['name', 'developer', 'publisher', 'genres', 'game_slug', 'price', 'release_date']]

# Crear diccionarios de mapeo para las dimensiones de desarrollador, publicador y género
desarrollador_mapping = dict(zip(dimension_desarrollador['developer'], dimension_desarrollador['desarrollador_id']))
publicador_mapping = dict(zip(dimension_publicador['publisher'], dimension_publicador['publicador_id']))
genero_mapping = dict(zip(dimension_genero['genres'], dimension_genero['genero_id']))

# Mapear IDs de las dimensiones
juegos_unicos['desarrollador_id'] = juegos_unicos['developer'].map(desarrollador_mapping)
juegos_unicos['publicador_id'] = juegos_unicos['publisher'].map(publicador_mapping)
juegos_unicos['genero_id'] = juegos_unicos['genres'].map(genero_mapping)

juegos_unicos.columns


Index(['name', 'developer', 'publisher', 'genres', 'game_slug', 'price',
       'release_date', 'desarrollador_id', 'publicador_id', 'genero_id'],
      dtype='object')

In [26]:
dimension_juego = actualizarTablaDimension(engine, 'dimension_juego', juegos_unicos[['name','game_slug', 'price','release_date', 'desarrollador_id', 'publicador_id', 'genero_id']],pk='juego_id')


In [27]:
dimension_juego.head()

Unnamed: 0,juego_id,name,game_slug,price,release_date,desarrollador_id,publicador_id,genero_id
0,1,Red Dead Redemption 2,red-dead-redemption-2,5999.0,2019-11-05T13:00:00.000Z,1,1,1
1,2,Hades,hades,2499.0,2019-12-10T11:00:00.000Z,2,2,2
2,3,Journey,journey,1499.0,2019-06-06T15:00:00.000Z,3,3,3
3,4,Grand Theft Auto V: Premium Edition,grand-theft-auto-v,2999.0,2020-05-14T15:00:00.000Z,1,1,4
4,5,The Witcher 3: Wild Hunt - Game of the Year Ed...,the-witcher-3-wild-hunt,4996.0,2020-05-14T14:00:00.000Z,4,4,5


### Dimension critico y compania del critico

In [28]:
dimension_compania = pd.DataFrame(df_sin_nulos['company'].unique(), columns=['company'])
dimension_compania

Unnamed: 0,company
0,Tom's Guide
1,Kinglink Reviews
2,Pure Xbox
3,Gaming Nexus
4,SomHráč.sk
...,...
494,The Nintendo Nomad
495,I Love Videogames
496,Nexus Hub
497,GAMES.CH


In [29]:
dimension_compania = actualizarTablaDimension(engine, 'dimension_compania', dimension_compania,pk='compania_id')

Una vez hecha la dimension compania puedo hacer la dimension critico

In [30]:
# Obtener críticos únicos de df_sin_nulos
criticos_unicos = df_sin_nulos.drop_duplicates(subset=['author', 'company'])[['author', 'company']]

# Crear diccionario de mapeo para la dimensión de compañía
compania_mapping = dict(zip(dimension_compania['company'], dimension_compania['compania_id']))

# Mapear IDs de compañía
criticos_unicos['compania_id'] = criticos_unicos['company'].map(compania_mapping)
criticos_unicos.columns




Index(['author', 'company', 'compania_id'], dtype='object')

In [31]:
# Verificar duplicados en la dimensión Crítico
duplicados = criticos_unicos.duplicated(subset=['author', 'compania_id'], keep=False)

# Filtrar las filas duplicadas
duplicados_critico = criticos_unicos[duplicados]

# Mostrar las filas duplicadas
print(duplicados_critico)


Empty DataFrame
Columns: [author, company, compania_id]
Index: []


In [32]:
dimension_critico=actualizarTablaDimension(engine, 'dimension_critico', criticos_unicos[['author','compania_id']], pk='critico_id')


In [33]:
dimension_critico.head(15)

Unnamed: 0,critico_id,author,compania_id
0,1,Sherri L. Smith,1
1,2,Frank Reese,2
2,3,PJ O'Reilly,3
3,4,Sean Cahill,4
4,5,Martin Černický,5
5,6,Óscar Sánchez,6
6,7,Joseph Siemsen,7
7,8,Will Borger,8
8,9,Tony Polanco,9
9,10,Rubén Rionegro,10


In [34]:
# Verificar duplicados en la dimensión Crítico
duplicados = dimension_critico.duplicated(subset=['author', 'compania_id', 'critico_id'], keep=False)

# Filtrar las filas duplicadas
duplicados_critico = dimension_critico[duplicados]

# Mostrar las filas duplicadas
print(duplicados_critico)



Empty DataFrame
Columns: [critico_id, author, compania_id]
Index: []


### Dimension Tiempo

In [35]:
df_sin_nulos['date'] = pd.to_datetime(df_sin_nulos['date'], format='%Y-%m-%dT%H:%M:%S.%fZ')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_sin_nulos['date'] = pd.to_datetime(df_sin_nulos['date'], format='%Y-%m-%dT%H:%M:%S.%fZ')


In [36]:
# Crear un DataFrame para dimension_tiempo a partir de la columna 'date'
dimension_tiempo = df_sin_nulos['date'].apply(lambda x: pd.to_datetime(x).date()).drop_duplicates().reset_index(drop=True)

# Desglosar las fechas en año, mes y día
dimension_tiempo = pd.DataFrame({
    'ano': dimension_tiempo.apply(lambda x: x.year),
    'mes': dimension_tiempo.apply(lambda x: x.month),
    'dia': dimension_tiempo.apply(lambda x: x.day),
    'fecha_completa': dimension_tiempo.apply(lambda x: x.strftime('%Y-%m-%d'))
})

# Mostrar el DataFrame dimension_tiempo antes de cargar los datos
print("DataFrame dimension_tiempo antes de cargar los datos:")
print(dimension_tiempo)




DataFrame dimension_tiempo antes de cargar los datos:
       ano  mes  dia fecha_completa
0     2021    1   28     2021-01-28
1     2020   11   23     2020-11-23
2     2020    3   14     2020-03-14
3     2019   12   12     2019-12-12
4     2019   12    5     2019-12-05
...    ...  ...  ...            ...
2640  2022    6   21     2022-06-21
2641  2022    1   20     2022-01-20
2642  2022    7    8     2022-07-08
2643  2022    6   27     2022-06-27
2644  2022    6   14     2022-06-14

[2645 rows x 4 columns]


In [37]:
dimension_tiempo = actualizarTablaDimension(engine, 'dimension_tiempo', dimension_tiempo, pk='tiempo_id')

In [38]:
# Verificar duplicados en la dimensión Tiempo
duplicados = dimension_tiempo.duplicated(subset=['ano', 'mes', 'dia'], keep=False)

# Filtrar las filas duplicadas
duplicados_critico = dimension_tiempo[duplicados]

# Mostrar las filas duplicadas
print(duplicados_critico)

Empty DataFrame
Columns: [tiempo_id, ano, mes, dia, fecha_completa]
Index: []


In [39]:
df_sin_nulos.columns

Index(['id_x', 'company', 'author', 'rating', 'date', 'game_id', 'id_y',
       'name', 'game_slug', 'price', 'release_date', 'developer', 'publisher',
       'genres'],
      dtype='object')

### Tabla de hechos

#### Agrego las columnas faltantes al dataset df_sin_nulos que es que representa las criticas, con el fin de poder calcular mi metrica basica.

In [40]:
# Crear un diccionario para mapear nombres de juegos a IDs de juegos
juego_mapping = dict(zip(dimension_juego['name'], dimension_juego['juego_id']))
# Crear un diccionario para mapear nombres de críticos a IDs de críticos
critico_mapping = dict(zip(dimension_critico['author'], dimension_critico['critico_id']))


In [41]:
# Agrupar críticas por juego y fecha, y asignar IDs correspondientes
for index, group in df_sin_nulos.groupby(['name', 'date']):
    df_sin_nulos.loc[group.index, 'desarrollador_id'] = desarrollador_mapping[group['developer'].iloc[0]]
    df_sin_nulos.loc[group.index, 'publicador_id'] = publicador_mapping[group['publisher'].iloc[0]]
    df_sin_nulos.loc[group.index, 'juego_id'] = juego_mapping[group['name'].iloc[0]]
    df_sin_nulos.loc[group.index, 'genero_id'] = genero_mapping[group['genres'].iloc[0]]
    df_sin_nulos.loc[group.index, 'compania_id'] = compania_mapping[group['company'].iloc[0]]
    df_sin_nulos.loc[group.index, 'critico_id'] = critico_mapping[group['author'].iloc[0]]
    df_sin_nulos.loc[group.index, 'tiempo_id'] = dimension_tiempo[
        (dimension_tiempo['ano'] == group['date'].dt.year.iloc[0]) &
        (dimension_tiempo['mes'] == group['date'].dt.month.iloc[0]) &
        (dimension_tiempo['dia'] == group['date'].dt.day.iloc[0])
    ]['tiempo_id'].values[0]

# Mostrar las primeras filas del DataFrame df_sin_nulos con las nuevas columnas
print(df_sin_nulos.head())


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_sin_nulos.loc[group.index, 'desarrollador_id'] = desarrollador_mapping[group['developer'].iloc[0]]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_sin_nulos.loc[group.index, 'publicador_id'] = publicador_mapping[group['publisher'].iloc[0]]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_sin_

                       id_x           company           author  rating  \
0  62320d6a67855975e586e99b       Tom's Guide  Sherri L. Smith    90.0   
1  601129490f8974118c9391d8  Kinglink Reviews      Frank Reese    80.0   
2  610c52ff957b7bfbeb213867         Pure Xbox      PJ O'Reilly   100.0   
4  5df2816aad4f81777e1f5632      Gaming Nexus     Sean  Cahill    90.0   
5  5de9793dad4f81777e1f4d3e        SomHráč.sk  Martin Černický    90.0   

        date                           game_id  \
0 2021-01-28  a3c78a5c62824677834c1008e0be9b2d   
1 2020-11-23  a3c78a5c62824677834c1008e0be9b2d   
2 2020-03-14  a3c78a5c62824677834c1008e0be9b2d   
4 2019-12-12  a3c78a5c62824677834c1008e0be9b2d   
5 2019-12-05  a3c78a5c62824677834c1008e0be9b2d   

                               id_y                   name  \
0  a3c78a5c62824677834c1008e0be9b2d  Red Dead Redemption 2   
1  a3c78a5c62824677834c1008e0be9b2d  Red Dead Redemption 2   
2  a3c78a5c62824677834c1008e0be9b2d  Red Dead Redemption 2   
4  a3c

In [42]:
# Filtrar el DataFrame para la fecha '2021-01-28T00:00:00.000Z'
filtro_fecha = df_sin_nulos['date'] == '2021-01-28'
datos_fecha = df_sin_nulos[filtro_fecha]

# Filtrar el DataFrame para la fecha '2021-01-28T00:00:00.000Z' y seleccionar las columnas de interés
datos_fecha_columnas = df_sin_nulos.loc[filtro_fecha, ['juego_id', 'critico_id','author', 'compania_id','company','tiempo_id']]

# Mostrar las columnas de interés para la fecha '2021-01-28T00:00:00.000Z'
print(datos_fecha_columnas)



       juego_id  critico_id             author  compania_id  \
0           1.0         1.0    Sherri L. Smith          1.0   
5260      117.0      2052.0     Henry T. Casey          1.0   
6520      147.0      2314.0    Frances Addison        411.0   
6747      152.0      2735.0  Mitchell Saltzman         77.0   
6748      152.0      2735.0   Bobby Pashalidis         77.0   
8433      190.0       275.0      Drew Leachman         56.0   
9499      220.0      1729.0      Edward Swardt        341.0   
14499     341.0       591.0       Trevor Gould        125.0   
15661     374.0      3564.0   Stephen Warcop\t        265.0   
16070     385.0      3566.0    Matthew Aguilar         90.0   
16071     385.0      3566.0   Richard Seagrave         90.0   
16072     385.0      3566.0        Álex Pareja         90.0   
16073     385.0      3566.0         Dan Twohig         90.0   

                     company  tiempo_id  
0                Tom's Guide        1.0  
5260             Tom's Guide     

Calculo de la metrica basica llamada score_rating.
Este es la suma de los rating que un juego obtuvo por cada critico en un mismo dia.

In [43]:
# Agrupar por juego_id, tiempo_id y calcular la suma de los ratings para cada grupo
score_rating_tiempo_df = df_sin_nulos.groupby(['juego_id', 'tiempo_id','desarrollador_id','publicador_id','genero_id'])['rating'].sum().reset_index()

# Renombrar la columna 'rating' como 'score_rating'
score_rating_tiempo_df.rename(columns={'rating': 'score_rating'}, inplace=True)


In [44]:
score_rating_tiempo_df.head()

Unnamed: 0,juego_id,tiempo_id,desarrollador_id,publicador_id,genero_id,score_rating
0,1.0,1.0,1.0,1.0,1.0,90.0
1,1.0,2.0,1.0,1.0,1.0,80.0
2,1.0,3.0,1.0,1.0,1.0,100.0
3,1.0,4.0,1.0,1.0,1.0,90.0
4,1.0,5.0,1.0,1.0,1.0,90.0


## ------------------------------

In [45]:
# Filtrar el DataFrame para la fecha '2021-01-28T00:00:00.000Z'
filtro_fecha = score_rating_tiempo_df['juego_id'] == 5
datos_fecha = score_rating_tiempo_df[filtro_fecha]

# Filtrar el DataFrame para la fecha '2021-01-28T00:00:00.000Z' y seleccionar las columnas de interés
datos_fecha_columnas = score_rating_tiempo_df.loc[filtro_fecha, ['juego_id', 'tiempo_id','desarrollador_id','publicador_id','score_rating']]

# Mostrar las columnas de interés para la fecha '2021-01-28T00:00:00.000Z'
print(datos_fecha_columnas)

     juego_id  tiempo_id  desarrollador_id  publicador_id  score_rating
79        5.0        7.0               4.0            4.0          90.0
80        5.0       80.0               4.0            4.0          90.0
81        5.0       81.0               4.0            4.0         100.0
82        5.0       82.0               4.0            4.0          90.0
83        5.0       83.0               4.0            4.0          80.0
84        5.0       84.0               4.0            4.0          80.0
85        5.0       85.0               4.0            4.0          75.0
86        5.0       86.0               4.0            4.0         100.0
87        5.0       87.0               4.0            4.0          80.0
88        5.0       88.0               4.0            4.0          96.0
89        5.0       89.0               4.0            4.0         100.0
90        5.0       90.0               4.0            4.0          96.0
91        5.0       91.0               4.0            4.0       

## ------------------------------

In [46]:
dimension_hecho_rating = actualizarTablaDimension(engine, 'hecho_rating_juego', score_rating_tiempo_df[['juego_id','tiempo_id','score_rating']], pk='id')

#### Segunda tabla de hechos

Me parecio interesante analizar la metrica de rating promedio por critico, por lo que cree una segunda tabla de hechos.

In [47]:
df_sin_nulos.columns

Index(['id_x', 'company', 'author', 'rating', 'date', 'game_id', 'id_y',
       'name', 'game_slug', 'price', 'release_date', 'developer', 'publisher',
       'genres', 'desarrollador_id', 'publicador_id', 'juego_id', 'genero_id',
       'compania_id', 'critico_id', 'tiempo_id'],
      dtype='object')

In [48]:
# En la primer tabla de hechos ya hice mapping del tiempo id, por lo que no es necesario hacerlo de nuevo
# Calcular el rating promedio diario por crítico
rating_promedio_diario = df_sin_nulos.groupby(['critico_id','compania_id', 'tiempo_id'])['rating'].mean().reset_index()
rating_promedio_diario.rename(columns={'rating': 'rating_promedio_diario'}, inplace=True)





In [49]:
rating_promedio_diario

Unnamed: 0,critico_id,compania_id,tiempo_id,rating_promedio_diario
0,1.0,1.0,1.0,90.0
1,1.0,1.0,689.0,70.0
2,2.0,2.0,2.0,80.0
3,2.0,2.0,110.0,100.0
4,2.0,2.0,498.0,70.0
...,...,...,...,...
8371,3720.0,88.0,2209.0,70.0
8372,3721.0,40.0,980.0,70.0
8373,3722.0,268.0,207.0,70.0
8374,3723.0,191.0,2285.0,70.0


In [50]:
dimension_hecho_rating_critico = actualizarTablaDimension(engine, 'hecho_rating_critico', rating_promedio_diario[['critico_id','tiempo_id','rating_promedio_diario']], pk='id_rating_crit')

In [51]:
dimension_hecho_rating_critico

Unnamed: 0,id_rating_crit,critico_id,tiempo_id,rating_promedio_diario
0,1,1,1,90.0
1,2,1,689,70.0
2,3,2,2,80.0
3,4,2,110,100.0
4,5,2,498,70.0
...,...,...,...,...
8371,8372,3720,2209,70.0
8372,8373,3721,980,70.0
8373,8374,3722,207,70.0
8374,8375,3723,2285,70.0
