![](/banner.png)

![](banner.png)
# Objetivos
+ Cargar los datos de una base de datos oltp y realizar limpieza
+ Perfilar los datos recibidos
+ Conseguir un conjunto de datos relacionado con toda la información a excluyendo municipio
+ Conseguir un conjunto de datos relacionado únicamente con los totales por municipio en cada año

# Carga de librerias

In [331]:
#Librerias para trabajar los datos
import pandas as pd
import numpy as np

#Librerias para visualizar los datos
import matplotlib.pyplot as plt
import seaborn as sns

#Otras
import math

# Carga de datos

In [276]:
#Carga de los datos principales
df_main = pd.read_csv('data_2010_2017.csv',sep=',',index_col=False,low_memory=False)
#Carga de información adicional de latitudes y longitudes de departamentos
df_depto = pd.read_csv('colombia_depto.csv',sep=',', header=None, encoding='utf8') 
df_depto.columns = ["codigo_depto","nombre_depto","lati_depto", "long_depto"]
#Carga de información adicional del # de población por depto
df_poblacion_depto = pd.read_csv('poblacion_deptos.csv',sep=',',index_col=False)
#Carga de información adicional del # de población por año, edad y sexo
df_poblacion_datos = pd.read_csv('poblacion_datos.csv',sep=';',index_col=False, encoding='latin-1')

In [277]:
df_main.head()

Unnamed: 0,anio,codigo_depto,nombre_depto,nombre_muni,codigo_muni,codigo_evento,evento,edad,sexo,num_casos
0,2010,TOTAL,TOTAL,TOTAL,TOTAL,TOTAL,TOTAL,TOTAL,TOTAL,200524.0
1,2010,TOTAL,TOTAL,TOTAL,TOTAL,TOTAL,TOTAL,TOTAL,Hombres,114264.0
2,2010,TOTAL,TOTAL,TOTAL,TOTAL,TOTAL,TOTAL,TOTAL,Mujeres,86250.0
3,2010,TOTAL,TOTAL,TOTAL,TOTAL,TOTAL,TOTAL,TOTAL,Indeterminado,10.0
4,2010,TOTAL,TOTAL,TOTAL,TOTAL,TOTAL,TOTAL,Menor 1 año,Hombres,4745.0


# Limpieza
## Datos principales
En principio vamos a eliminar los elementos que calculan totales en el dataframe para que todas las filas representen lo mismo

In [278]:
df_main = df_main.drop(df_main[df_main['codigo_depto']=='TOTAL'].index)
df_main = df_main.drop(df_main[df_main['nombre_depto']=='TOTAL'].index)
df_main = df_main.drop(df_main[df_main['nombre_muni']=='TOTAL'].index)
df_main = df_main.drop(df_main[df_main['codigo_muni']=='TOTAL'].index)
df_main = df_main.drop(df_main[df_main['codigo_evento']=='TOTAL'].index)
df_main = df_main.drop(df_main[df_main['evento']=='TOTAL'].index)
df_main = df_main.drop(df_main[df_main['edad']=='TOTAL'].index)
df_main = df_main.drop(df_main[df_main['sexo']=='TOTAL'].index)

Luego revisamos los tipos de datos y transformamos lo que sea necesario

In [279]:
df_main.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 464634 entries, 1750 to 1244983
Data columns (total 10 columns):
 #   Column         Non-Null Count   Dtype  
---  ------         --------------   -----  
 0   anio           464634 non-null  int64  
 1   codigo_depto   464634 non-null  object 
 2   nombre_depto   464634 non-null  object 
 3   nombre_muni    464634 non-null  object 
 4   codigo_muni    464634 non-null  object 
 5   codigo_evento  464634 non-null  object 
 6   evento         464634 non-null  object 
 7   edad           464634 non-null  object 
 8   sexo           464634 non-null  object 
 9   num_casos      464634 non-null  float64
dtypes: float64(1), int64(1), object(8)
memory usage: 55.1+ MB


In [280]:
def arreglar_tipos(v_types:dict) -> None:
    for value in v_types:
        try:
            df_main[value] = df_main[value].astype(v_types[value])
        except Exception as e:
            print(f'error in value {value}',str(e))
        
value_types = {'anio':'int64','codigo_depto':'int64','nombre_depto':'string',
               'nombre_muni':'string','codigo_muni':'int64','codigo_evento':'int64',
               'evento':'string','sexo':'string','edad':'string','num_casos':'int64'
              }

arreglar_tipos(value_types)

error in value codigo_depto invalid literal for int() with base 10: 'Extranjeros'


Vemos que en la columna codigo_depto hay un elemento llamado 'Extranjeros', asi que lo vamos a cambiar por el código 100

In [281]:
df_main['codigo_depto'] = df_main['codigo_depto'].apply(lambda x : 100 if x == 'Extranjeros' else x)

Volvemos a intentar

In [282]:
arreglar_tipos(value_types)

Todo correcto

## Datos de departamento

In [283]:
df_depto.head()

Unnamed: 0,codigo_depto,nombre_depto,lati_depto,long_depto
0,91,Amazonas,-1.019722,-71.938333
1,5,Antioquia,7.0,-75.5
2,81,Arauca,7.090278,-70.761667
3,8,Atlántico,10.75,-75.0
4,13,Bolívar,9.0,-74.333333


Luego revisamos los tipos de datos y transformamos lo que sea necesario

In [284]:
df_depto.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   codigo_depto  32 non-null     int64  
 1   nombre_depto  32 non-null     object 
 2   lati_depto    32 non-null     float64
 3   long_depto    32 non-null     float64
dtypes: float64(2), int64(1), object(1)
memory usage: 1.1+ KB


Todo correcto

## Datos de población por depto

In [285]:
df_poblacion_depto.head()

Unnamed: 0,departamento,población
0,Amazonas,79020
1,Antioquia,6677930
2,Arauca,391020
3,Atlántico,2722128
4,Bogotá,7743955


Luego revisamos los tipos de datos y transformamos lo que sea necesario

In [286]:
df_poblacion_depto.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 33 entries, 0 to 32
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   departamento  33 non-null     object
 1   población     33 non-null     int64 
dtypes: int64(1), object(1)
memory usage: 656.0+ bytes


Todo correcto

## Datos de población por edad, sexo y año

In [287]:
df_poblacion_datos.head()

Unnamed: 0,anio,edad,poblacion,sexo
0,2010,80+ años,245286,Hombres
1,2010,75-79 años,248086,Hombres
2,2010,70-74 años,353204,Hombres
3,2010,65-69 años,471137,Hombres
4,2010,60-64 años,656599,Hombres


Luego revisamos los tipos de datos y transformamos lo que sea necesario

In [288]:
df_poblacion_datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 170 entries, 0 to 169
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   anio       170 non-null    int64 
 1   edad       170 non-null    object
 2   poblacion  170 non-null    int64 
 3   sexo       170 non-null    object
dtypes: int64(2), object(2)
memory usage: 5.4+ KB


Todo correcto

# Transformaciones
En caso de no contar con la cantidad de población determinada para algún grupo vamos a retirar esta información por lo que retiraremos los valores referentes a:
+ Muertes en el extranjero (columna codigo_depto con el valor 100)
+ Muertes de sexo indeterminado (columna sexo con el valor "Indeterminado")
+ Muertes de edad desconocida (columna edad con valor "Edad Desconocida")

In [342]:
df_main = df_main.drop(df_main[df_main['codigo_depto']==100].index)
df_main = df_main.drop(df_main[df_main['sexo']=='Indeterminado'].index)
df_main = df_main.drop(df_main[df_main['edad']=='Edad desconocida'].index)

En la columna edad quitaremos los valores correspondientes a "De 65 y más" dado que en esa columna a la vez hay rangos como "De 65-84 años", "De 85-99 años", "De 100 y más" y al ser dos versiones de la misma información (aparentemente), decidimos quedarnos con los otros rangos en espera de que nos den más info.

In [343]:
df_main = df_main.drop(df_main[df_main['edad']=='De 65 y más'].index)

## Conseguimos el numero de personas por S,E,A
Vamos a conseguir un numero de personas por sexo, edad y año

In [357]:
#Df temporal con main
df1 = df_main.copy()
#Df temporal con datos
df2 = df_poblacion_datos.copy()

Agrupamos para hallar el numero de casos sin discriminar por municipio

In [358]:
df1 = df1.groupby(['sexo','anio','edad','codigo_depto','nombre_depto','codigo_evento','evento']).sum()
df1.head(5)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,codigo_muni,num_casos
sexo,anio,edad,codigo_depto,nombre_depto,codigo_evento,evento,Unnamed: 7_level_1,Unnamed: 8_level_1
Hombres,2010,De 1-4 años,5,Antioquia,101,ENFERMEDADES INFECCIOSAS INTESTINALES,5051,1
Hombres,2010,De 1-4 años,5,Antioquia,103,CIERTAS ENF. TRANSMITIDAS POR VECTORES Y RABIA,5854,1
Hombres,2010,De 1-4 años,5,Antioquia,105,MENINGITIS,5001,2
Hombres,2010,De 1-4 años,5,Antioquia,106,SEPTICEMIA,5647,1
Hombres,2010,De 1-4 años,5,Antioquia,109,INFECCIONES RESPIRATORIAS AGUDAS,48994,9


Arreglamos el indice y quitamos codigo_muni

In [359]:
df1 = df1.reset_index()
df1 = df1.drop(columns=["codigo_muni"])

In [360]:
df1.head(5)

Unnamed: 0,sexo,anio,edad,codigo_depto,nombre_depto,codigo_evento,evento,num_casos
0,Hombres,2010,De 1-4 años,5,Antioquia,101,ENFERMEDADES INFECCIOSAS INTESTINALES,1
1,Hombres,2010,De 1-4 años,5,Antioquia,103,CIERTAS ENF. TRANSMITIDAS POR VECTORES Y RABIA,1
2,Hombres,2010,De 1-4 años,5,Antioquia,105,MENINGITIS,2
3,Hombres,2010,De 1-4 años,5,Antioquia,106,SEPTICEMIA,1
4,Hombres,2010,De 1-4 años,5,Antioquia,109,INFECCIONES RESPIRATORIAS AGUDAS,9


In [361]:
df1.tail(5)

Unnamed: 0,sexo,anio,edad,codigo_depto,nombre_depto,codigo_evento,evento,num_casos
74859,Mujeres,2017,Menor 1 año,99,Vichada,404,TRAST. RESPIRATORIOS ESPECIFICOS DEL PERIODO P...,1
74860,Mujeres,2017,Menor 1 año,99,Vichada,405,SEPSIS BACTERIANA DEL RECIEN NACIDO,2
74861,Mujeres,2017,Menor 1 año,99,Vichada,602,DEFICIENCIAS NUTRICIONALES Y ANEMIAS NUTRICION...,4
74862,Mujeres,2017,Menor 1 año,99,Vichada,615,"MALFORMACIONES CONGEN., DEFORMID.Y ANOMALIAS C...",1
74863,Mujeres,2017,Menor 1 año,99,Vichada,700,"SINTOMAS, SIGNOS Y AFECCIONES MAL DEFINIDAS",1


In [362]:
df1["edad"].value_counts()

De 45-64 años    19872
De 15-44 años    18228
Menor 1 año       8695
De 65-84 años     7608
De 5-14 años      6881
De 1-4 años       6125
De 85-99 años     6063
De 100 y más      1392
Name: edad, dtype: int64

Vamos a crear una columna en el dataframe df1 y en el dataframe df_población_datos que nos ayude a hacer la relación que queremos para mapear rangos de edad

In [363]:
rangos_df1 = {'Menor 1 año':'0-4 años','De 1-4 años':'0-4 años',
              'De 5-14 años':'5-14 años','De 15-44 años':'15-44 años',
              'De 15-44 años':'15-44 años','De 45-64 años':'45-64 años',
              'De 65-84 años':'65+ años', 'De 65 y más':'65+ años',
              'De 85-99 años':'65+ años','De 100 y más':'65+ años'
             }

df1['edad'] = df1['edad'].apply(lambda x : rangos_df1[x])

In [364]:
rangos_datos = {'80+ años':'65+ años','75-79 años':'65+ años',
                '70-74 años':'65+ años','65-69 años':'65+ años',
                '60-64 años':'45-64 años','55-59 años':'45-64 años',
                '50-54 años':'45-64 años','45-49 años':'45-64 años',
                '40-45 años':'15-44 años','35-40 años':'15-44 años',
                '30-34 años':'15-44 años','25-29 años':'15-44 años',
                '20-24 años':'15-44 años','15-19 años':'15-44 años',
                '10-14 años':'5-14 años','5-9 años':'5-14 años',
                '0-4 años':'0-4 años'
             }

df2['edad'] = df2['edad'].apply(lambda x : rangos_datos[x])

Para df2 los elementos que en edad tengan el mismo valor ahora deben ser sumados

In [371]:
df2 = df2.groupby(by=['edad','anio','sexo']).sum()
#Para volverlo dataframe denuevo
df2 = df2.reset_index()

In [373]:
#Df temporal con la union de los anteriores
df3 = pd.merge(df1, df2,  on=['edad','anio','sexo'])

In [376]:
df3.tail()

Unnamed: 0,sexo,anio,edad,codigo_depto,nombre_depto,codigo_evento,evento,num_casos,poblacion
45258,Mujeres,2017,5-14 años,86,Putumayo,510,"OTROS ACCIDENTES, INCLUSIVE SECUELAS",1,4158721
45259,Mujeres,2017,5-14 años,86,Putumayo,512,"AGRESIONES (HOMICIDIOS), INCLUSIVE SECUELAS",1,4158721
45260,Mujeres,2017,5-14 años,91,Amazonas,700,"SINTOMAS, SIGNOS Y AFECCIONES MAL DEFINIDAS",1,4158721
45261,Mujeres,2017,5-14 años,95,Guaviare,609,"APENDICITIS, HERNIA CAVIDAD ABDOMINAL Y OBSTR....",1,4158721
45262,Mujeres,2017,5-14 años,99,Vichada,506,AHOGAMIENTO Y SUMERSION ACCIDENTALES,1,4158721


## Conseguimos el porcentaje de personas por departamento

In [377]:
#Df temporal con la información del departamento
df4 = df_poblacion_depto.copy()
#cambiamos el nombre de las columnas
df4.columns = ["nombre_depto","poblacion"]

In [378]:
tot_poblacion = df4['poblacion'].sum()

In [379]:
df4['porcentaje'] = df4['poblacion'].apply(lambda x : x/tot_poblacion)

In [380]:
df4.head()

Unnamed: 0,nombre_depto,poblacion,porcentaje
0,Amazonas,79020,0.001564
1,Antioquia,6677930,0.132211
2,Arauca,391020,0.007742
3,Atlántico,2722128,0.053893
4,Bogotá,7743955,0.153317


## Juntamos con la info anterior
Juntamos todo para conseguir personas por sexo, año, edad y departemento

In [385]:
df5 = pd.merge(df3,df4,on=["nombre_depto"], suffixes = ("_l","_r"))

In [387]:
df5.head()

Unnamed: 0,sexo,anio,edad,codigo_depto,nombre_depto,codigo_evento,evento,num_casos,poblacion_l,poblacion_r,porcentaje
0,Hombres,2010,0-4 años,5,Antioquia,101,ENFERMEDADES INFECCIOSAS INTESTINALES,1,1959813,6677930,0.132211
1,Hombres,2010,0-4 años,5,Antioquia,103,CIERTAS ENF. TRANSMITIDAS POR VECTORES Y RABIA,1,1959813,6677930,0.132211
2,Hombres,2010,0-4 años,5,Antioquia,105,MENINGITIS,2,1959813,6677930,0.132211
3,Hombres,2010,0-4 años,5,Antioquia,106,SEPTICEMIA,1,1959813,6677930,0.132211
4,Hombres,2010,0-4 años,5,Antioquia,109,INFECCIONES RESPIRATORIAS AGUDAS,9,1959813,6677930,0.132211


Multiplicamos población_l con porcentaje para hallar cuantas personas con determinado sexo, año y edad son de cierto departamento, luego redondeamos

In [388]:
df5["poblacion"] = df5["poblacion_l"] * df5["porcentaje"]
df5["poblacion"] = df5["poblacion"].apply(lambda x : math.ceil(x))

Podemos dropear las columnas sobrantes

In [392]:
df5 = df5.drop(columns=['poblacion_l','poblacion_r','porcentaje'])

In [393]:
df5

Unnamed: 0,sexo,anio,edad,codigo_depto,nombre_depto,codigo_evento,evento,num_casos,poblacion
0,Hombres,2010,0-4 años,5,Antioquia,101,ENFERMEDADES INFECCIOSAS INTESTINALES,1,259110
1,Hombres,2010,0-4 años,5,Antioquia,103,CIERTAS ENF. TRANSMITIDAS POR VECTORES Y RABIA,1,259110
2,Hombres,2010,0-4 años,5,Antioquia,105,MENINGITIS,2,259110
3,Hombres,2010,0-4 años,5,Antioquia,106,SEPTICEMIA,1,259110
4,Hombres,2010,0-4 años,5,Antioquia,109,INFECCIONES RESPIRATORIAS AGUDAS,9,259110
...,...,...,...,...,...,...,...,...,...
44864,Mujeres,2017,45-64 años,99,Vichada,213,RESIDUO DE TUMORES MALIGNOS,1,9805
44865,Mujeres,2017,45-64 años,99,Vichada,214,"CARCINOMA IN-SITU, T. BENIGNOS Y DE COMPORTAM....",3,9805
44866,Mujeres,2017,45-64 años,99,Vichada,303,ENFERMEDADES ISQUEMICAS DEL CORAZON,1,9805
44867,Mujeres,2017,45-64 años,99,Vichada,612,ENFERMEDADES SISTEMA URINARIO,1,9805


In [12]:
df['sexo'].value_counts()

Hombres          255539
Mujeres          209009
Indeterminado        86
Name: sexo, dtype: Int64

In [13]:
df.groupby(by='sexo')['num_casos'].sum()

sexo
Hombres          882382
Indeterminado        99
Mujeres          705439
Name: num_casos, dtype: int64

In [14]:
df.groupby(by='evento')['num_casos'].sum().sort_values()

evento
PARO CARDIACO                                                148
ENF. HEMOLITICA DEL FETO Y DEL RECIEN N. Y KERNICTERUS       168
INFECC. CON MODO DE TRANSM. PREDOM./. SEXUAL                 267
ACC. CAUSADOS POR DISPARO DE ARMAS DE FUEGO                  305
OTRAS ENF. DE LAS VIAS RESPIRATORIAS SUPERIORES              331
                                                           ...  
INFECCIONES RESPIRATORIAS AGUDAS                           58854
ENF. CRONICAS VIAS REPIRATORIAS INFERIORES                 95221
AGRESIONES (HOMICIDIOS), INCLUSIVE SECUELAS               100943
ENFERMEDADES CEREBROVASCULARES                            109875
ENFERMEDADES ISQUEMICAS DEL CORAZON                       256804
Name: num_casos, Length: 72, dtype: int64

In [15]:
df.loc[df['sexo']=='Indeterminado']['evento'].value_counts()

AGRESIONES (HOMICIDIOS), INCLUSIVE SECUELAS                        31
SINTOMAS, SIGNOS Y AFECCIONES MAL DEFINIDAS                        19
EVENTOS DE INTENCION NO DETERMINADA, INCL. SECUELAS                 7
OTRAS AFECC. ORIGINADAS EN PERIODO PERINATAL                        5
INTERVENCION LEGAL Y OPERAC. DE GUERRA, INCL. SECUELAS              4
MALFORMACIONES CONGEN., DEFORMID.Y ANOMALIAS CROMOSOMICAS           4
TRAST. RESPIRATORIOS ESPECIFICOS DEL PERIODO PERINATAL              3
ACC. TRANSPORTE TERRESTRE, INCLUSIVE SECUELAS                       3
FETO Y RECIEN N. AFECTADOS POR COMPL. OBST. Y TRAUM. NACIMIENTO     2
OTROS ACCIDENTES, INCLUSIVE SECUELAS                                2
INFECC. CON MODO DE TRANSM. PREDOM./. SEXUAL                        1
LESIONES AUTOINFLIGIDAS INTENC.(SUICIDIOS), INCL. SECUELAS          1
DEFICIENCIAS NUTRICIONALES Y ANEMIAS NUTRICIONALES                  1
AHOGAMIENTO Y SUMERSION ACCIDENTALES                                1
ENFERMEDADES ISQUEMI

In [16]:
df.groupby(by='edad')['num_casos'].sum().sort_values()

edad
Edad desconocida      1647
De 100 y más          3868
De 1-4 años          12292
De 5-14 años         15894
Menor 1 año          58835
De 85-99 años       126621
De 15-44 años       232707
De 65-84 años       243131
De 45-64 años       307836
De 65 y más         585089
Name: num_casos, dtype: int64

In [17]:
df.groupby(by='nombre_depto')['num_casos'].sum().sort_values()

nombre_depto
Guainía                                        791
Vaupés                                         796
Vichada                                       1304
Amazonas                                      1507
Archipiélago de San Andrés y Providencia      1903
Guaviare                                      2078
Extranjeros                                   2655
Arauca                                        7597
Putumayo                                      7962
Casanare                                      9397
Chocó                                         9775
Caquetá                                      12987
La Guajira                                   13830
Sucre                                        23961
Quindío                                      26828
Cesar                                        28749
Meta                                         33229
Magdalena                                    36571
Huila                                        39584
Cauca             

In [18]:
df.to_csv('data/pre_data_2010_2017.csv', index = False)

a

# Creación de dimensiones y tabla de hechos

In [19]:
fact_table = df.copy()

## Creación dimensión Fecha

In [20]:
#Creamos el dataframe
df_fecha = pd.DataFrame(fact_table["anio"].unique())
df_fecha = df_fecha.reset_index()
df_fecha.columns = ["fecha_key", "anio"]
df_fecha["fecha_key"] = df_fecha["fecha_key"]+1

#Actualizamos la tabla principal
fact_table = pd.merge(fact_table, df_fecha, on="anio")
fact_table = fact_table.drop(columns=['anio'])

In [21]:
fact_table

Unnamed: 0,codigo_depto,nombre_depto,nombre_muni,codigo_muni,codigo_evento,evento,edad,sexo,num_casos,fecha_key
0,05,Antioquia,Medellín,5001,101,ENFERMEDADES INFECCIOSAS INTESTINALES,De 15-44 años,Hombres,2,1
1,05,Antioquia,Medellín,5001,101,ENFERMEDADES INFECCIOSAS INTESTINALES,De 15-44 años,Mujeres,2,1
2,05,Antioquia,Medellín,5001,101,ENFERMEDADES INFECCIOSAS INTESTINALES,De 45-64 años,Hombres,7,1
3,05,Antioquia,Medellín,5001,101,ENFERMEDADES INFECCIOSAS INTESTINALES,De 45-64 años,Mujeres,5,1
4,05,Antioquia,Medellín,5001,101,ENFERMEDADES INFECCIOSAS INTESTINALES,De 65 y más,Hombres,12,1
...,...,...,...,...,...,...,...,...,...,...
464629,100,Extranjeros,Venezuela,75862,616,RESIDUO,De 65-84 años,Hombres,1,8
464630,100,Extranjeros,Venezuela,75862,700,"SINTOMAS, SIGNOS Y AFECCIONES MAL DEFINIDAS",De 1-4 años,Hombres,1,8
464631,100,Extranjeros,Venezuela,75862,700,"SINTOMAS, SIGNOS Y AFECCIONES MAL DEFINIDAS",De 15-44 años,Hombres,1,8
464632,100,Extranjeros,Venezuela,75862,700,"SINTOMAS, SIGNOS Y AFECCIONES MAL DEFINIDAS",De 65-84 años,Hombres,1,8


In [22]:
#Guardamos la dimensión fecha
df_fecha.to_csv('data/dim_fecha.csv',index = False)

## Creación dimensión Perfil

In [23]:
#obtengo edades y sexo unicas, luego creo a para hacer un join sin parametro
list_edad = pd.DataFrame(fact_table["edad"].unique())
list_edad["a"] = "a"
list_sexo = pd.DataFrame(fact_table["sexo"].unique())
list_sexo["a"] = "a"

In [24]:
r1 = pd.merge(list_edad, list_sexo, on="a")
r1.head(5)

Unnamed: 0,0_x,a,0_y
0,De 15-44 años,a,Hombres
1,De 15-44 años,a,Mujeres
2,De 15-44 años,a,Indeterminado
3,De 45-64 años,a,Hombres
4,De 45-64 años,a,Mujeres


In [25]:
#Creamos el dataframe
df_perfil = r1.copy()
df_perfil = df_perfil.drop(columns=['a'])
df_perfil = df_perfil.reset_index()
df_perfil.columns = ["perfil_key","edad", "sexo"]
df_perfil["perfil_key"] = df_perfil["perfil_key"]+1

In [26]:
df_perfil.head(5)

Unnamed: 0,perfil_key,edad,sexo
0,1,De 15-44 años,Hombres
1,2,De 15-44 años,Mujeres
2,3,De 15-44 años,Indeterminado
3,4,De 45-64 años,Hombres
4,5,De 45-64 años,Mujeres


In [27]:
#Actualizamos la tabla principal
fact_table = pd.merge(fact_table, df_perfil,  on=['edad','sexo'])
fact_table = fact_table.drop(columns=['edad','sexo'])
fact_table

Unnamed: 0,codigo_depto,nombre_depto,nombre_muni,codigo_muni,codigo_evento,evento,num_casos,fecha_key,perfil_key
0,05,Antioquia,Medellín,5001,101,ENFERMEDADES INFECCIOSAS INTESTINALES,2,1,1
1,05,Antioquia,Medellín,5001,102,"TUBERCULOSIS, INCLUSIVE SECUELAS",11,1,1
2,05,Antioquia,Medellín,5001,105,MENINGITIS,2,1,1
3,05,Antioquia,Medellín,5001,106,SEPTICEMIA,6,1,1
4,05,Antioquia,Medellín,5001,108,ENFERMEDAD POR EL VIH/SIDA,58,1,1
...,...,...,...,...,...,...,...,...,...
464629,76,Valle del Cauca,Yumbo,76892,605,ENF. CRONICAS VIAS REPIRATORIAS INFERIORES,1,8,29
464630,76,Valle del Cauca,Zarzal,76895,106,SEPTICEMIA,1,8,29
464631,76,Valle del Cauca,Zarzal,76895,616,RESIDUO,1,8,29
464632,85,Casanare,Yopal,85001,612,ENFERMEDADES SISTEMA URINARIO,1,8,29


In [28]:
#Guardamos la dimensión perfil
df_perfil.to_csv('data/dim_perfil.csv',index = False)

## Creación dimensión Lugar

In [29]:
df_temp = fact_table.copy()

In [30]:
df_lugar = df_temp[["codigo_depto","codigo_muni","nombre_depto","nombre_muni"]]

In [31]:
df_lugar = df_lugar.drop_duplicates()

In [32]:
#Creamos el dataframe
df_lugar = df_lugar.reset_index()
df_lugar.columns = ["lugar_key","codigo_depto","codigo_muni","nombre_depto", "nombre_muni"]
df_lugar["codigo_depto"] = df_lugar["codigo_depto"].astype('int32')
df_lugar["lugar_key"] = df_lugar["lugar_key"]+1

In [33]:
#Para municipios a añadir las latitudes y las longitudes.
muni = pd.read_csv('data/colombia_muni.csv', header=None, encoding='utf8')
muni.columns = ["codigo_muni","nombre_muni","codigo_depto","nombre_depto", "lati_muni", "long_muni"]
muni = muni.drop(columns=["nombre_muni",'codigo_depto','nombre_depto'])

#Para departamentos a añadir las latitudes y las longitudes
depto = pd.read_csv('data/colombia_depto.csv', header=None, encoding='utf8') 
depto.columns = ["codigo_depto","nombre_depto","lati_depto", "long_depto"]
depto = depto.drop(columns=["nombre_depto"])

In [34]:
df_lugar = pd.merge(df_lugar, muni, on='codigo_muni')
df_lugar = pd.merge(df_lugar, depto, on='codigo_depto')

In [35]:
#luego lo "desarreglamos"
df_lugar["lati_muni"] = df_lugar["lati_muni"].apply(lambda x : str(x))
df_lugar["long_muni"] = df_lugar["long_muni"].apply(lambda x : str(x))
df_lugar["lati_depto"] = df_lugar["lati_depto"].apply(lambda x : str(x))
df_lugar["long_depto"] = df_lugar["long_depto"].apply(lambda x : str(x))

#Arreglamos pa que todo quede con comas
df_lugar["lati_muni"] = df_lugar["lati_muni"].apply(lambda x : x.replace(".",","))
df_lugar["long_muni"] = df_lugar["long_muni"].apply(lambda x : x.replace(".",","))
df_lugar["lati_depto"] = df_lugar["lati_depto"].apply(lambda x : x.replace(".",","))
df_lugar["long_depto"] = df_lugar["long_depto"].apply(lambda x : x.replace(".",","))

In [36]:
df_lugar

Unnamed: 0,lugar_key,codigo_depto,codigo_muni,nombre_depto,nombre_muni,lati_muni,long_muni,lati_depto,long_depto
0,1,5,5001,Antioquia,Medellín,62913889,-755361111,70,-755
1,47,5,5002,Antioquia,Abejorral,575,-754166667,70,-755
2,52,5,5030,Antioquia,Amagá,605,-757,70,-755
3,62,5,5031,Antioquia,Amalfi,7,-749166667,70,-755
4,71,5,5034,Antioquia,Andes,55833333,-759166667,70,-755
...,...,...,...,...,...,...,...,...,...
1216,6034,97,97666,Vaupés,Taraira,04938889,-696669444,025,-7075
1217,6035,99,99001,Vichada,Puerto Carreño,61877778,-674730556,50,-695
1218,6042,99,99524,Vichada,La Primavera,54905556,-704091667,50,-695
1219,6045,99,99624,Vichada,Santa Rosalía,51261111,-708758333,50,-695


In [37]:
#Actualizamos la tabla principal
fact_table = pd.merge(fact_table, df_lugar,  on=['nombre_depto','nombre_muni'], suffixes = ("_l","_r"))
fact_table = fact_table.drop(columns=['codigo_depto_l', 'codigo_muni_l', 'codigo_depto_r', 'codigo_muni_r', 'nombre_depto', "nombre_muni"])
fact_table

Unnamed: 0,codigo_evento,evento,num_casos,fecha_key,perfil_key,lugar_key,lati_muni,long_muni,lati_depto,long_depto
0,101,ENFERMEDADES INFECCIOSAS INTESTINALES,2,1,1,1,62913889,-755361111,70,-755
1,102,"TUBERCULOSIS, INCLUSIVE SECUELAS",11,1,1,1,62913889,-755361111,70,-755
2,105,MENINGITIS,2,1,1,1,62913889,-755361111,70,-755
3,106,SEPTICEMIA,6,1,1,1,62913889,-755361111,70,-755
4,108,ENFERMEDAD POR EL VIH/SIDA,58,1,1,1,62913889,-755361111,70,-755
...,...,...,...,...,...,...,...,...,...,...
519419,303,ENFERMEDADES ISQUEMICAS DEL CORAZON,1,7,26,32043,49166667,-7455,50,-741666667
519420,605,ENF. CRONICAS VIAS REPIRATORIAS INFERIORES,1,7,26,32043,49166667,-7455,50,-741666667
519421,212,"T. MALIGNO TEJIDO LINFATICO, ORG. HEMATOPOY. Y...",1,8,26,32043,49166667,-7455,50,-741666667
519422,304,"ENF. CARDIOPULMONAR, DE LA CIRC. PULM. Y OTRAS...",1,8,26,32043,49166667,-7455,50,-741666667


In [38]:
#Guardamos la dimensión lugar
df_lugar.to_csv('data/dim_lugar.csv',index = False, sep = ";")

## Creación dimensión Evento

In [39]:
#Creamos el dataframe
df_evento = pd.DataFrame(fact_table["evento"].unique())
df_evento = df_evento.reset_index()
df_evento.columns = ["evento_key", "evento"]
df_evento["evento_key"] = df_evento["evento_key"]+1

#Actualizamos la tabla principal
fact_table = pd.merge(fact_table, df_evento, on="evento")
fact_table = fact_table.drop(columns=['evento'])

In [40]:
fact_table

Unnamed: 0,codigo_evento,num_casos,fecha_key,perfil_key,lugar_key,lati_muni,long_muni,lati_depto,long_depto,evento_key
0,101,2,1,1,1,62913889,-755361111,70,-755,1
1,101,1,2,1,1,62913889,-755361111,70,-755,1
2,101,3,3,1,1,62913889,-755361111,70,-755,1
3,101,1,4,1,1,62913889,-755361111,70,-755,1
4,101,4,7,1,1,62913889,-755361111,70,-755,1
...,...,...,...,...,...,...,...,...,...,...
519419,405,1,3,20,16586,69927778,-729102778,70,-7325,72
519420,405,1,3,19,18993,98833333,-7525,90,-743333333,72
519421,405,1,5,19,18993,98833333,-7525,90,-743333333,72
519422,405,1,6,19,18993,98833333,-7525,90,-743333333,72


In [41]:
#Guardamos la dimensión fecha
df_evento.to_csv('data/dim_evento.csv',index = False)

In [42]:
#Guardamos la tabla de hechos
fact_table.to_csv('data/fact_table.csv',index = False)