## Importo librerias

In [1]:
import pandas as pd
from sqlalchemy import create_engine
from sqlalchemy.sql import func

## Función "ActualizarTablaDimension"

In [2]:
def actualizarTablaDimension(engine, table, data, pk="id"):
    """
    Esta función actualiza una tabla de dimensión de un DW con los datos nuevos. Si los datos
    ya existen en la tabla, no se agregan. Devuelve la tabla actualizada con los pk tal cual esta
    en la base de datos.

    La tabla de dimensión debe estar creada y las columnas deben llamarse igual que en el df.

    Parametros:
        engine: engine de la base de datos
        table: nombre de la tabla
        data: datafarme de datos nuevos a agregar, sin incluir la PK
        pk: nombre de la PK. Por defecto es "ID"

    Retorno:
        dimension_df: datafarme con la tabla según está en la DB con los datos nuevos agregados.

    """
    with engine.connect() as conn, conn.begin():
        old_data = pd.read_sql_table(table, conn)

        # Borro la columna pk
        old_data.drop(pk, axis=1, inplace=True)

        # new_data es el datafarme de datos diferencia de conjunto con old_data
        new_data = data[~data.stack().isin(old_data.stack().values).unstack().astype(bool)].dropna()

        # insertar new_data
        new_data.to_sql(table, conn, if_exists='append', index=False)

        # buscar como quedó la tabla
        dimension_df = pd.read_sql_table(table, conn)

    return dimension_df


## Creo el cubo y leo los datos del CSV

In [3]:
# con crate engine me conecto a la base de datos
engine_cubo = create_engine("postgresql+psycopg2://postgres:sabrina@localhost:5432/db_suicidios")

#leo el csv:
casos_suicidio = pd.read_csv("db_crudo_suicidios.csv")

casos_suicidio.head()

Unnamed: 0,id_hecho,federal,provincia_id,provincia_nombre,departamento_id,departamento_nombre,localidad_id,localidad_nombre,anio,mes,...,tipo_lugar_ampliado,tipo_lugar_otro,modalidad,modalidad_ampliado,modalidad_otro,motivo_origen_registro,motivo_origen_registro_otro,suicida_sexo,suicida_tr_edad,suicida_identidad_genero
0,8529,No,42,La Pampa,42002,Norte (General Pico),105030,General Pico,2017,1,...,Vía pública,,Ahorcamiento,Ahorcamiento,,Intervención policial,,Masculino,20-24,Sin determinar
1,8530,No,42,La Pampa,42003,Sur (General Acha),70030,Guatraché,2017,1,...,Domicilio particular,,Arma de fuego,Arma de fuego,,Intervención policial,,Masculino,55-59,Sin determinar
2,8569,No,78,Santa Cruz,78021,Güer Aike,60,28 de Noviembre,2017,1,...,Vía pública,,Ahorcamiento,Ahorcamiento,,Denuncia particular,,Masculino,15-19,Sin determinar
3,8705,No,58,Neuquén,58035,Confluencia,70,Neuquén,2017,1,...,Hotel/Motel/Hospedaje temporario,Hotel/Motel/Hospedaje temporario,Arma de fuego,Arma de fuego,,Intervención policial,,Masculino,20-24,Sin determinar
4,8706,No,58,Neuquén,58035,Confluencia,100,Plottier,2017,1,...,Domicilio particular,,Ahorcamiento,Ahorcamiento,,Intervención policial,,Masculino,20-24,Sin determinar


## Dimensión Modalidad

In [4]:
dimension_modalidad = pd.DataFrame({'modalidad_nombre': casos_suicidio['modalidad'].unique()})

dimension_modalidad = actualizarTablaDimension(engine_cubo, 'modalidad', dimension_modalidad, pk='id_modalidad')

print(dimension_modalidad)

   id_modalidad                  modalidad_nombre
0             1                      Ahorcamiento
1             2                     Arma de fuego
2             3                    Envenenamiento
3             4                    Otra modalidad
4             5                    Sin determinar
5             6                Se arroja al vacío
6             7  Sumersión en piscina / mar / río
7             8    Se arroja a las vías de FF.CC.
8             9  Arma blanca /  elemento cortante
9            10                       Se incinera


## Dimensión Edad

In [5]:
dimension_edad = pd.DataFrame({'edad_rango': casos_suicidio['suicida_tr_edad'].unique()})

dimension_edad = actualizarTablaDimension(engine_cubo, 'edad', dimension_edad, pk='id_edad')

print(dimension_edad)

    id_edad      edad_rango
0         1           20-24
1         2           55-59
2         3           15-19
3         4           45-49
4         5           25-29
5         6  Sin determinar
6         7           30-34
7         8        90 y más
8         9           35-39
9        10           50-54
10       11           65-69
11       12           60-64
12       13           40-44
13       14           80-84
14       15           10-14
15       16           75-79
16       17           85-89
17       18           70-74
18       19             5-9


## Dimensión Sexo

In [6]:
dimension_sexo = pd.DataFrame({'sexo_nombre': casos_suicidio['suicida_sexo'].unique()})

dimension_sexo = actualizarTablaDimension(engine_cubo, 'sexo', dimension_sexo, pk='id_sexo')

print(dimension_sexo)

   id_sexo     sexo_nombre
0        1       Masculino
1        2        Femenino
2        3  Sin determinar


## Dimensión Tiempo

In [7]:
#creo la dimension tiempo:
dimension_tiempo = pd.DataFrame({'tiempo': casos_suicidio['fecha_hecho'] + ' ' + casos_suicidio['hora_hecho']}) 

#paso tiempo a date time con formato dia, mes, año, hora, minuto, segundo:
dimension_tiempo['tiempo'] = pd.to_datetime(dimension_tiempo['tiempo'], format='%d-%m-%Y %H:%M:%S')

#agrego una nueva columna con daynbweek: son los dias de la semana
dimension_tiempo['dia'] = dimension_tiempo['tiempo'].dt.day_of_week

#agrego monthnumber: son los meses del año
dimension_tiempo['mes'] = dimension_tiempo['tiempo'].dt.month

#agrego year: son los años
dimension_tiempo['anio'] = dimension_tiempo['tiempo'].dt.year

# Clasificar las horas en: madrugada (0 a 6am), mañana (6 a 12am), tarde (12 a 18pm) y noche (18 a 00):
dimension_tiempo['periodo'] = pd.cut(dimension_tiempo['tiempo'].dt.hour,
                                     bins=[-1, 6, 12, 18, 24],
                                     labels=['Madrugada', 'Mañana', 'Tarde', 'Noche'])


dimension_tiempo = dimension_tiempo.drop_duplicates()

dimension_tiempo = actualizarTablaDimension(engine_cubo, 'tiempo', dimension_tiempo, pk='id_tiempo')


dimension_tiempo

Unnamed: 0,id_tiempo,tiempo,dia,mes,anio,periodo
0,1,2017-01-08 13:25:00,6,1,2017,Tarde
1,2,2017-01-09 01:00:00,0,1,2017,Madrugada
2,3,2017-01-01 19:00:00,6,1,2017,Noche
3,4,2017-01-31 17:30:00,1,1,2017,Tarde
4,5,2017-01-31 22:40:00,1,1,2017,Noche
...,...,...,...,...,...,...
21036,21037,2022-08-28 11:11:11,6,8,2022,Mañana
21037,21038,2022-07-09 07:30:00,5,7,2022,Mañana
21038,21039,2022-09-11 05:00:00,6,9,2022,Madrugada
21039,21040,2022-09-27 06:45:00,1,9,2022,Madrugada


## Dimensión Lugar

In [8]:
dimension_lugar = pd.DataFrame({'lugar_nombre': casos_suicidio['tipo_lugar']})

dimension_lugar['localidad_nombre'] = casos_suicidio['localidad_nombre']

dimension_lugar['departamento_nombre'] = casos_suicidio['departamento_nombre']

dimension_lugar['provincia_nombre'] = casos_suicidio['provincia_nombre']

dimension_lugar = dimension_lugar.drop_duplicates()

dimension_lugar = actualizarTablaDimension(engine_cubo, 'lugar', dimension_lugar, pk='id_lugar')
print(dimension_lugar)

      id_lugar                lugar_nombre        localidad_nombre  \
0            1                 Vía pública            General Pico   
1            2        Domicilio particular               Guatraché   
2            3                 Vía pública         28 de Noviembre   
3            4  Otro Lugar ( Especificar )                 Neuquén   
4            5        Domicilio particular                Plottier   
...        ...                         ...                     ...   
3181      3182                 Vía pública            Cruz de Caña   
3182      3183        Domicilio particular               Caminiaga   
3183      3184                 Vía pública              La Playosa   
3184      3185          Cárcel o comisaría  Ciudad de Buenos Aires   
3185      3186  Otro Lugar ( Especificar )               San Cosme   

       departamento_nombre                 provincia_nombre  
0     Norte (General Pico)                         La Pampa  
1       Sur (General Acha)         

## Variable "agrupado"

In [10]:
agrupado = casos_suicidio.copy()
agrupado['tiempo'] = casos_suicidio['fecha_hecho'] + ' ' + casos_suicidio['hora_hecho']
agrupado['tiempo'] = pd.to_datetime(agrupado['tiempo'], format='%d-%m-%Y %H:%M:%S')
agrupado = agrupado.drop_duplicates(subset=['tiempo'])

agrupado = agrupado.groupby(['modalidad', 'suicida_tr_edad', 'suicida_sexo', 
                                    'fecha_hecho', 'hora_hecho', 'tiempo', 'tipo_lugar', 'localidad_nombre', 
                                    'departamento_nombre', 'provincia_nombre']).size()

#obtener solo la columna donde esta la columna "0":
agrupado = agrupado.reset_index(name='counts')

agrupado

Unnamed: 0,modalidad,suicida_tr_edad,suicida_sexo,fecha_hecho,hora_hecho,tiempo,tipo_lugar,localidad_nombre,departamento_nombre,provincia_nombre,counts
0,Ahorcamiento,10-14,Femenino,01-01-2021,21:10:00,2021-01-01 21:10:00,Domicilio particular,La Rioja,Capital,La Rioja,1
1,Ahorcamiento,10-14,Femenino,01-03-2018,20:30:00,2018-03-01 20:30:00,Domicilio particular,Santa Teresita - Mar del Tuyú,La Costa,Buenos Aires,1
2,Ahorcamiento,10-14,Femenino,01-12-2021,12:30:00,2021-12-01 12:30:00,Domicilio particular,Tafí del Valle,Tafí del Valle,Tucumán,1
3,Ahorcamiento,10-14,Femenino,02-09-2017,18:45:00,2017-09-02 18:45:00,Domicilio particular,Posadas (Municipio de Posadas),Capital,Misiones,1
4,Ahorcamiento,10-14,Femenino,02-12-2021,23:50:00,2021-12-02 23:50:00,Domicilio particular,Puerto Pilcomayo,Pilcomayo,Formosa,1
...,...,...,...,...,...,...,...,...,...,...,...
21036,Sumersión en piscina / mar / río,Sin determinar,Masculino,08-01-2020,14:20:00,2020-01-08 14:20:00,Vía pública,Sauce Viejo,La Capital,Santa Fe,1
21037,Sumersión en piscina / mar / río,Sin determinar,Masculino,08-03-2017,19:18:00,2017-03-08 19:18:00,Vía pública,Rodeo del Medio,Maipú,Mendoza,1
21038,Sumersión en piscina / mar / río,Sin determinar,Masculino,18-03-2017,00:26:00,2017-03-18 00:26:00,Vía pública,Guaymallén,Guaymallén,Mendoza,1
21039,Sumersión en piscina / mar / río,Sin determinar,Masculino,20-01-2017,17:40:00,2017-01-20 17:40:00,Otro Lugar ( Especificar ),Rosario,Rosario,Santa Fe,1


## Tabla de Hechos "sucesos"

In [10]:
sucesos = pd.DataFrame({
    # Dimensiones:
    'id_modalidad': agrupado['modalidad'].map(dimension_modalidad.set_index('modalidad_nombre')['id_modalidad']),
    'id_edad': agrupado['suicida_tr_edad'].map(dimension_edad.set_index('edad_rango')['id_edad']),
    'id_sexo': agrupado['suicida_sexo'].map(dimension_sexo.set_index('sexo_nombre')['id_sexo']),
    'id_tiempo': agrupado['tiempo'].map(dimension_tiempo.set_index('tiempo')['id_tiempo']),
    # la columna lugar tiene que ser un mapeo de casos suicidios con dimension lugar sobre las columnas nombre de localidad, departamento y provincia:
    'id_lugar': agrupado[['tipo_lugar', 'localidad_nombre', 'departamento_nombre', 'provincia_nombre']].apply(lambda x: tuple(x), axis=1).map(dimension_lugar.set_index(['lugar_nombre', 'localidad_nombre', 'departamento_nombre', 'provincia_nombre']).drop_duplicates()['id_lugar']),
    
    # Métricas:
    #cantidad de suicidios: es una columna que tiene un numero que es la cantidad de filas agrupadas segun los datos de arriba:
    'cantidad_suicidios': agrupado['counts']
})

sucesos

Unnamed: 0,id_modalidad,id_edad,id_sexo,id_tiempo,id_lugar,cantidad_suicidios
0,1,15,2,13812,667,1
1,1,15,2,5180,1135,1
2,1,15,2,15225,2435,1
3,1,15,2,721,259,1
4,1,15,2,14824,1925,1
...,...,...,...,...,...,...
21036,7,6,1,8721,1995,1
21037,7,6,1,1638,625,1
21038,7,6,1,1643,628,1
21039,7,6,1,113,64,1


In [11]:
sucesos = actualizarTablaDimension(engine_cubo, 'sucesos', sucesos, pk='id_suceso')