# Librerias

In [1]:
#Librerias para trabajar los datos
import pandas as pd
import numpy as np

# Carga de Datos

In [2]:
#Carga de los datos principales
value_types = {'codigo_muni':'string','codigo_depto':'string'}
df_main = pd.read_csv('data_generated/data_ready_test.csv',sep=',',index_col=False,low_memory=False,dtype=value_types)
df_main.head()

Unnamed: 0,anio,codigo_depto,nombre_depto,nombre_muni,codigo_muni,codigo_evento,evento,edad,sexo,num_casos,población
0,2020,18,Caquetá,Albania,18029,107,Enfermedad por el VIH (SIDA),15-44 años,Hombres,1,962
1,2020,18,Caquetá,Albania,18029,214,Tumores malignos de otras localizaciones y de ...,15-44 años,Hombres,1,962
2,2020,18,Caquetá,Albania,18029,201,Tumor maligno del estómago,45-64 años,Mujeres,1,419
3,2020,18,Caquetá,Albania,18029,204,"Tumor maligno de la tráquea, los bronquios y e...",65+ años,Mujeres,1,161
4,2020,18,Caquetá,Albania,18029,215,"Tumores in situ, beningnos y los de comportami...",65+ años,Mujeres,1,161


# Creación de dimensiones y tabla de hechos

## Creación dimensión Fecha

In [3]:
#Creamos el dataframe
df_fecha = pd.DataFrame(df_main["anio"].unique())
df_fecha = df_fecha.reset_index()
df_fecha.columns = ["fecha_key", "anio"]
df_fecha["fecha_key"] = df_fecha["fecha_key"]+1

In [4]:
#Veamos el dataframe
df_fecha.head(5)

Unnamed: 0,fecha_key,anio
0,1,2020


In [5]:
#Guardamos la dimensión fecha
df_fecha.to_csv('data_generated/dim_fecha.csv',index = False)

## Creación dimensión Perfil

In [6]:
#obtengo edades y sexo unicas, luego creo a para hacer un join sin parametro
list_edad = pd.DataFrame(df_main["edad"].unique())
list_edad["a"] = "a"
list_sexo = pd.DataFrame(df_main["sexo"].unique())
list_sexo["a"] = "a"

mix1 = pd.merge(list_edad, list_sexo, on="a")
mix1.head(5)

Unnamed: 0,0_x,a,0_y
0,15-44 años,a,Hombres
1,15-44 años,a,Mujeres
2,45-64 años,a,Hombres
3,45-64 años,a,Mujeres
4,65+ años,a,Hombres


In [7]:
#Creamos el dataframe
df_perfil = mix1.copy()
df_perfil = df_perfil.drop(columns=['a'])
df_perfil = df_perfil.reset_index()
df_perfil.columns = ["perfil_key","edad", "sexo"]
df_perfil["perfil_key"] = df_perfil["perfil_key"]+1
df_perfil.head(5)

Unnamed: 0,perfil_key,edad,sexo
0,1,15-44 años,Hombres
1,2,15-44 años,Mujeres
2,3,45-64 años,Hombres
3,4,45-64 años,Mujeres
4,5,65+ años,Hombres


In [8]:
#Guardamos la dimensión perfil
df_perfil.to_csv('data_generated/dim_perfil.csv',index = False)

## Creación dimensión Lugar

In [19]:
#Vamos a usar otra fuente de datos para traer locaciones geograficas
value_types = {'codigo_muni':'string','codigo_depto':'string'}
col_depto = pd.read_csv('data_source/colombia_depto.csv', encoding='utf8',dtype=value_types)
col_muni  = pd.read_csv('data_source/colombia_muni.csv', encoding='utf8',dtype=value_types) 

#luego lo "desarreglamos"
col_depto["lati_depto"] = col_depto["lati_depto"].apply(lambda x : str(x))
col_depto["long_depto"] = col_depto["long_depto"].apply(lambda x : str(x))
col_muni["lati_muni"] = col_muni["lati_muni"].apply(lambda x : str(x))
col_muni["long_muni"] = col_muni["long_muni"].apply(lambda x : str(x))

#Arreglamos pa que todo quede con comas
col_depto["lati_depto"] = col_depto["lati_depto"].apply(lambda x : x.replace(".",","))
col_depto["long_depto"] = col_depto["long_depto"].apply(lambda x : x.replace(".",","))
col_muni["lati_muni"] = col_muni["lati_muni"].apply(lambda x : x.replace(".",","))
col_muni["long_muni"] = col_muni["long_muni"].apply(lambda x : x.replace(".",","))

In [20]:
col_muni.head(3)

Unnamed: 0,codigo_muni,nombre_muni,codigo_depto,nombre_depto,lati_muni,long_muni
0,5002,Abejorral,5,Antioquia,575,-754166667
1,5004,Abriaquí,5,Antioquia,66666667,-760833333
2,50006,Acacías,50,Meta,39166667,-738333333


In [21]:
col_depto.head(3)

Unnamed: 0,codigo_depto,nombre_depto,lati_depto,long_depto
0,91,Amazonas,-10197222,-719383333
1,5,Antioquia,70,-755
2,81,Arauca,70902778,-707616667


In [12]:
#Traemos la info del lugar
df_lugar = df_main[['codigo_depto','nombre_depto','codigo_muni','nombre_muni']]
#Quitamos duplicados
df_lugar = df_lugar.drop_duplicates()
#Le ponemos indices
df_lugar = df_lugar.reset_index()
df_lugar.columns = ['lugar_key','codigo_depto','nombre_depto','codigo_muni','nombre_muni']
df_lugar["lugar_key"] = df_lugar["lugar_key"]+1

#Hago el merge con col_depto
df_lugar = pd.merge(df_lugar, col_depto, on=["codigo_depto",'nombre_depto'])
#Hago el merge con col_muni
df_lugar = pd.merge(df_lugar, col_muni, on=["codigo_muni",'nombre_muni',"codigo_depto",'nombre_depto'])

In [13]:
df_lugar.head()

Unnamed: 0,lugar_key,codigo_depto,nombre_depto,codigo_muni,nombre_muni,lati_depto,long_depto,lati_muni,long_muni
0,1,18,Caquetá,18029,Albania,10,-740,13316667,-758822222
1,31,18,Caquetá,18150,Cartagena del Chairá,10,-740,135,-7484
2,73,18,Caquetá,18205,Curillo,10,-740,10352778,-759247222
3,89,18,Caquetá,18247,El Doncello,10,-740,16794444,-752791667
4,127,18,Caquetá,18256,El Paujil,10,-740,1564,-75332


In [14]:
#Guardamos la dimensión lugar
df_lugar.to_csv('data_generated/dim_lugar.csv',index = False, sep = ";")

## Creación dimensión Evento

In [15]:
#Traemos la info del evento
df_evento = df_main[["codigo_evento","evento"]]
#Quitamos duplicados
df_evento = df_evento.drop_duplicates()
#Le ponemos los indices
df_evento = df_evento.reset_index()
df_evento.columns = ["evento_key","codigo_evento","evento"]
df_evento["evento_key"] = df_evento["evento_key"]+1
#Imprimo
df_evento.head(5)

Unnamed: 0,evento_key,codigo_evento,evento
0,1,107,Enfermedad por el VIH (SIDA)
1,2,214,Tumores malignos de otras localizaciones y de ...
2,3,201,Tumor maligno del estómago
3,4,204,"Tumor maligno de la tráquea, los bronquios y e..."
4,5,215,"Tumores in situ, beningnos y los de comportami..."


In [16]:
#Guardamos la dimensión lugar
df_evento.to_csv('data_generated/dim_evento.csv',index = False)

## Creamos la Fact Table

In [17]:
fact_table = df_main.copy()

#Actualizamos la tabla principal con fecha
fact_table = pd.merge(fact_table, df_fecha, on="anio")
fact_table = fact_table.drop(columns=['anio'])

#Actualizamos la tabla principal con perfil
fact_table = pd.merge(fact_table, df_perfil,  on=['edad','sexo'])
fact_table = fact_table.drop(columns=['edad','sexo'])

#Actualizamos la tabla principal con lugar
fact_table = pd.merge(fact_table, df_lugar,  on=['codigo_depto','nombre_depto','nombre_muni','codigo_muni'])
fact_table = fact_table.drop(columns=['codigo_depto','nombre_depto','nombre_muni','codigo_muni',
                                      'lati_depto','long_depto','lati_muni','long_muni'
                                     ]
                            )
#Actualizamos la tabla principal con evento
fact_table = pd.merge(fact_table, df_evento, on=["evento","codigo_evento"])
fact_table = fact_table.drop(columns=['evento', "codigo_evento"])

#Imprimo
fact_table.head(5)

Unnamed: 0,num_casos,población,fecha_key,perfil_key,lugar_key,evento_key
0,1,962,1,1,1,1
1,4,43331,1,1,150,1
2,2,41938,1,2,150,1
3,1,12737,1,1,398,1
4,1,3979,1,4,398,1


In [18]:
#Guardamos la tabla de hechos
fact_table.to_csv('data_generated/fact_table.csv',index = False, sep = ";")