In [1]:
# Datos: http://saludata.saludcapital.gov.co/osb/datos_abiertos_osb/enf-transmisibles/OSB_EnfTransm-COVID-19.csv

In [2]:
import pandas as pd
import geopandas as gpd

In [33]:
# Loading the data
covid_bog = pd.read_csv( './data/covid19_bogota_raw.csv', encoding = 'ISO-8859-1', sep = ';' )

In [34]:
covid_bog.columns

Index(['ID de caso', 'Fecha de diagnóstico', 'Ciudad de residencia',
       'Localidad de residencia', 'Edad', 'Sexo', 'Tipo de caso', 'Ubicación',
       'Estado'],
      dtype='object')

In [35]:
covid_bog.shape

(19241, 9)

In [36]:
covid_bog[ 'Fecha de diagnóstico' ].replace( { '#¡REF!': None }, inplace = True )

In [37]:
covid_bog[ 'Fecha de diagnóstico' ] = pd.to_datetime( covid_bog[ 'Fecha de diagnóstico' ], format = '%d/%m/%y' )

In [38]:
covid_bog[ 'Localidad de residencia' ].replace( { 'Santa Fe': 'Santa Fé' }, inplace = True )

In [39]:
covid_bog.dtypes

ID de caso                          int64
Fecha de diagnóstico       datetime64[ns]
Ciudad de residencia               object
Localidad de residencia            object
Edad                                int64
Sexo                               object
Tipo de caso                       object
Ubicación                          object
Estado                             object
dtype: object

In [40]:
def get_age_group( x ):
    if x <= 19:
        return '0 - 19'
    elif x > 19 and x <= 39:
        return '20 - 39'
    elif x > 39 and x <= 59:
        return '40 - 59'
    elif x > 59 and x <= 79:
        return '60 - 79'
    elif x > 79:
          return '80+'
    else:
        return None

covid_bog[ 'Grupo de edad' ] = covid_bog[ 'Edad' ].apply( get_age_group )

In [41]:
covid_bog.rename( columns = { 'ID de caso': 'ID_caso', 'Fecha de diagnóstico': 'Fecha_diagnostico', 'Ciudad de residencia': 'Ciudad', 'Localidad de residencia': 'Localidad', 'Tipo de caso': 'Tipo', 'Ubicación': 'Atencion', 'Grupo de edad': 'Grupo_de_edad' }, inplace = True )

In [42]:
covid_bog.dtypes

ID_caso                       int64
Fecha_diagnostico    datetime64[ns]
Ciudad                       object
Localidad                    object
Edad                          int64
Sexo                         object
Tipo                         object
Atencion                     object
Estado                       object
Grupo_de_edad                object
dtype: object

In [43]:
covid_bog.tail()

Unnamed: 0,ID_caso,Fecha_diagnostico,Ciudad,Localidad,Edad,Sexo,Tipo,Atencion,Estado,Grupo_de_edad
19236,19237,2020-06-19,Bogotá,Sin Dato,68,M,En estudio,Casa,Moderado,60 - 79
19237,19238,2020-06-19,Bogotá,Sin Dato,45,F,En estudio,Casa,Moderado,40 - 59
19238,19239,2020-06-12,Fuera de Bogotá,Fuera de Bogotá,76,M,En estudio,Casa,Moderado,60 - 79
19239,19240,2020-06-11,Bogotá,Sin Dato,22,F,En estudio,Casa,Moderado,20 - 39
19240,19241,2020-06-08,Bogotá,Sin Dato,28,F,En estudio,Casa,Moderado,20 - 39


In [44]:
covid_bog[ 'Estado' ].unique()

array(['Recuperado', 'Fallecido', 'Crítico', 'Severo', 'Moderado'],
      dtype=object)

In [45]:
covid_bog.to_csv( './data/covid19_bogota.csv', index = False )