In [48]:
import pandas as pd
import geopandas as gpd

from pandas_profiling import ProfileReport

In [77]:
# Loading the data
covid_bog = pd.read_csv( './data/covid19_bogota_raw.csv', encoding = 'ISO-8859-1' )

In [78]:
covid_bog.shape

(5283, 9)

In [79]:
covid_bog[ 'Fecha de diagnóstico' ] = pd.to_datetime( covid_bog[ 'Fecha de diagnóstico' ], format = '%d/%m/%Y' )

In [80]:
covid_bog[ 'Localidad de residencia' ].replace( { 'Santa Fe': 'Santa Fé' }, inplace = True )

In [81]:
covid_bog.dtypes

ID de caso                          int64
Fecha de diagnóstico       datetime64[ns]
Ciudad de residencia               object
Localidad de residencia            object
Edad                                int64
Sexo                               object
Tipo de caso                       object
Ubicación                          object
Estado                             object
dtype: object

In [82]:
def get_age_group( x ):
    if x <= 19:
        return '0 - 19'
    elif x > 19 and x <= 39:
        return '20 - 39'
    elif x > 39 and x <= 59:
        return '40 - 59'
    elif x > 59 and x <= 79:
        return '60 - 79'
    elif x > 79:
          return '80+'
    else:
        return None

covid_bog[ 'Grupo de edad' ] = covid_bog[ 'Edad' ].apply( get_age_group )

In [83]:
covid_bog[ 'Estado' ].value_counts()

Moderado      3765
Recuperado    1062
Severo         229
Fallecido      171
Crítico         56
Name: Estado, dtype: int64

In [89]:
covid_bog.head()

Unnamed: 0,ID de caso,Fecha de diagnóstico,Ciudad de residencia,Localidad de residencia,Edad,Sexo,Tipo de caso,Ubicación,Estado,Grupo de edad
0,1,2020-03-06,Bogotá,Usaquén,19,F,Importado,Casa,Recuperado,0 - 19
1,2,2020-03-10,Bogotá,Engativá,22,F,Importado,Casa,Recuperado,20 - 39
2,3,2020-03-10,Bogotá,Engativá,28,F,Importado,Casa,Recuperado,20 - 39
3,4,2020-03-12,Bogotá,Fontibón,36,F,Importado,Casa,Recuperado,20 - 39
4,5,2020-03-12,Bogotá,Kennedy,42,F,Importado,Casa,Recuperado,40 - 59


In [85]:
covid_bog.to_csv( './data/covid19_bogota.csv', index = False )

In [20]:
localidades_bog = gpd.read_file( './data/geo/localidades.json' )

In [21]:
localidades_bog[ 'localidad' ].unique()

array(['ANTONIO NARIÑO', 'TUNJUELITO', 'RAFAEL URIBE URIBE', 'CANDELARIA',
       'BARRIOS UNIDOS', 'TEUSAQUILLO', 'PUENTE ARANDA', 'LOS MARTIRES',
       'SUMAPAZ', 'USAQUEN', 'CHAPINERO', 'SANTA FE', 'SAN CRISTOBAL',
       'USME', 'CIUDAD BOLIVAR', 'BOSA', 'KENNEDY', 'FONTIBON',
       'ENGATIVA', 'SUBA'], dtype=object)

In [22]:
localidades_bog.replace( { 'ANTONIO NARIÑO': 'Antonio Nariño', 'TUNJUELITO': 'Tunjuelito', 'RAFAEL URIBE URIBE': 'Rafael Uribe Uribe', \
                         'CANDELARIA': 'La Candelaria', 'BARRIOS UNIDOS': 'Barrios Unidos', 'TEUSAQUILLO': 'Teusaquillo', 'PUENTE ARANDA': 'Puente Aranda', \
                         'LOS MARTIRES': 'Los Mártires', 'SUMAPAZ': 'Sumapaz', 'USAQUEN': 'Usaquén', 'CHAPINERO': 'Chapinero', 'SANTA FE': 'Santa Fé', \
                         'SAN CRISTOBAL': 'San Cristóbal', 'USME': 'Usme', 'CIUDAD BOLIVAR': 'Ciudad Bolívar', 'BOSA': 'Bosa', 'KENNEDY': 'Kennedy', \
                         'FONTIBON': 'Fontibón', 'ENGATIVA' : 'Engativá', 'SUBA': 'Suba' }, inplace = True )

In [23]:
localidades_bog.head()

Unnamed: 0,localidad,codigo_localidad,geometry
0,Antonio Nariño,15,"MULTIPOLYGON (((-74.13075 4.59335, -74.12917 4..."
1,Tunjuelito,6,"MULTIPOLYGON (((-74.13777 4.59489, -74.13165 4..."
2,Rafael Uribe Uribe,18,"MULTIPOLYGON (((-74.12803 4.59254, -74.12777 4..."
3,La Candelaria,17,"MULTIPOLYGON (((-74.06621 4.60317, -74.06620 4..."
4,Barrios Unidos,12,"MULTIPOLYGON (((-74.05725 4.68684, -74.06249 4..."


In [25]:
localidades_bog = localidades_bog.loc[ localidades_bog[ 'localidad' ] != 'Sumapaz' ]

In [26]:
localidades_bog.to_file( './data/geo/localidades_no_sumapaz.json', driver = 'GeoJSON' )