# Obteniendo el número de casos positivos, fallecidos y vacunados contra COVID-19 por semana epidemiológica

En este notebook se busca obtener un dataset con el número de **casos positivos**, **fallecidos** y **totalmente vacunados** tanto a **nivel nacional**, por **grupo etáreo** como por **departamento** de todo el Perú.


## A. Lectura y Procesamiento

En esta sección se leen y preprocesan los dataset de **RawData**. 

El dataset de casos positivos **(positivos_covid.csv)** y vacunados **(TB_VACUNACION_COVID19.csv)** no están incluidos en el repositorio debido a su excesivo tamaño ~170 MB y ~2.3 GB respectivamente. Sin embargo se puede descargar directamente desde la página de Datos Abiertos de COVID-19 de MINSA y colocarlos en la dirección RawData:
- [Casos positivos por COVID-19](https://www.datosabiertos.gob.pe/dataset/casos-positivos-por-covid-19-ministerio-de-salud-minsa)
- [Vacunación contra la COVID-19](https://www.datosabiertos.gob.pe/dataset/vacunacion) 

Para preservar recursos, no se procesará la información usando **Pandas** en estos datasets. En su lugar se utilizará el paquete **Dask**. El dataset no será un **pandas dataframe** si no un **dask dataframe** el cual está separado en *n* particiones de tipo **pandas dataframe**.

### Cargar Librerías

In [1]:
import pandas as pd
import numpy as np
import dask.dataframe as dd
from epiweeks import Week

import functions as fn

### Dataset de casos positivos

In [2]:
# Leer el dataset (dask dataframe ddf)
url_cas = 'RawData/positivos_covid.csv'
col_cas = ['FECHA_RESULTADO','EDAD', 'DEPARTAMENTO']
ddf_cas = dd.read_csv(url_cas, sep = ';', usecols = col_cas, 
                      dtype={'EDAD': 'float64', 'FECHA_RESULTADO': 'float64'})
ddf_cas = ddf_cas.dropna().astype({'EDAD': 'int8', 'FECHA_RESULTADO': 'int32'})

# Convertir la columna "fecha_vacunacion" a formato fecha y obtenener el año y semana epidemiológica
ddf_cas = ddf_cas.assign(fecha_vacunacion = dd.to_datetime(ddf_cas['FECHA_RESULTADO'], 
                                                           format = "%Y%m%d", errors="coerce"))
ddf_cas['fecha_vacunacion'] = ddf_cas['fecha_vacunacion'].map(lambda date : Week.fromdate(date).isoformat())
ddf_cas[['year','epi_week']] = ddf_cas['fecha_vacunacion'].str.split("W", 1, expand=True)
ddf_cas = ddf_cas.astype({'year': 'int16', 'epi_week': 'int8'})

# Categorizar edad en grupos etáreos
def edad_cat(df, col):
    """Función para categorizar edad en grupos etáreos"""
    conditions = [(df[col]< 18),
                  (df[col]>=18) & (df[col]<30),
                  (df[col]>=30) & (df[col]<40),
                  (df[col]>=40) & (df[col]<50),
                  (df[col]>=50) & (df[col]<60),
                  (df[col]>=60) & (df[col]<70),
                  (df[col]>=70) & (df[col]<80),
                  (df[col]>=80)]
    choices = [0,1,2,3,4,5,6,7]
    return np.select(conditions, choices, default=np.nan).astype('int8')

ddf_cas['edad_cat'] = ddf_cas.map_partitions(edad_cat, 'EDAD')

# Drop unused cols
ddf_cas = ddf_cas.drop(['FECHA_RESULTADO', 'fecha_vacunacion', 'EDAD'], axis=1)

### Dataset de fallecidos

In [3]:
# Leer el dataset
url_fal = 'RawData/fallecidos_covid.csv'
col_fal = ['FECHA_FALLECIMIENTO', 'DEPARTAMENTO', 'EDAD_DECLARADA']
df_fal = pd.read_csv(url_fal, sep = ';', usecols = col_fal, dtype = {'FECHA_FALLECIMIENTO':'int32', 
                                                                     'EDAD_DECLARADA': 'int8'})
# Transformar a formato fecha y convertir a semana epidemiológia y año
df_fal.loc[:,'FECHA_FALLECIMIENTO'] = pd.to_datetime(df_fal['FECHA_FALLECIMIENTO'], format = '%Y%m%d')
df_fal[['year','epi_week']] = df_fal['FECHA_FALLECIMIENTO'].apply(lambda date_name : Week.fromdate(date_name) \
                                                                                         .weektuple()).tolist()
# Categorizar la edad en grupos etáreos
df_fal['edad_cat'] = edad_cat(df_fal, 'EDAD_DECLARADA')

#df_fal['SEXO'].replace({'MASCULINO': 0,'FEMENINO':1}, inplace=True)
#df_fal = df_fal[df_fal['SEXO'].apply(lambda x: str(x).isdigit())]

# Change types and drop unused cols
df_fal = df_fal.astype({'year': 'int16', 'epi_week': 'int8'}).drop(['FECHA_FALLECIMIENTO', 'EDAD_DECLARADA'], axis=1)

### Dataset de vacunados

Para encontrar el departamento respectivo de cada vacunado se prevee lo siguiente:

1) El dataset de vacunados **(TB_VACUNACION_COVID19.csv)** solamente proporciona información sobre la ubicación del establecimientos de salud (eess) llamado **'id_eess'**.

2) El dataset de los centros de vacunación [(TB_CENTRO_VACUNACION.csv)](/RawData/TB_CENTRO_VACUNACION.csv) puede ser utilizado para hacer *match* del **'id_eess'** del dataset de vacunados con la variable **'id_ubigeo'**. Que es una variable numérica que representa a cada lugar.

3) Finalmente, con el dataset de ubigeo [(TB_UBIGEOS.csv)](/RawData/TB_UBIGEOS.csv) es posible reemplazar a cada **'id_ubigeo'** con la variable **'departamento'** respectiva.

Para el dataset de UBIGEO solo se necesita las columnas **'id_ubigeo'** y **'departamento'**. Para el dataset de CENTROS DE VACUNACIÓN solo se necesitan las columnas **'id_centro de vacunación'** e **'id_ubigeo'**.

In [4]:
# Leer los datasets de ubigeo y centros de vacunación
url_ubigeo = 'RawData/TB_UBIGEOS.csv'
url_vaccenter = 'RawData/TB_EESS.csv'
ubigeo = pd.read_csv(url_ubigeo, usecols = ['id_ubigeo', 'departamento'])
vaccenter = pd.read_csv(url_vaccenter, usecols= ['id_eess','id_ubigeo'])

# Unimos ambos dataset mediante 'id_ubigeo'
vaccenter = vaccenter.merge(ubigeo, on = 'id_ubigeo', how = 'left')
del ubigeo, vaccenter['id_ubigeo']

In [5]:
# Leer el dataset (dask dataframe ddf)
url_vac = 'RawData/TB_VACUNACION_COVID19.csv'
col_vac = ['fecha_vacunacion','dosis', 'edad', 'id_eess']
ddf_vac = dd.read_csv(url_vac, sep = ",", usecols = col_vac, dtype = {'fecha_vacunacion':'int32', 
                                                                      'dosis': 'int8',
                                                                      'edad': 'float64'})
# Personas con 3 o menos dosis
ddf_vac = ddf_vac[ddf_vac['dosis'] <= 3].dropna() 

# Convertir la columna 'fecha_vacunacion' a formato fecha y obtener el año y semana epidemiológica
ddf_vac = ddf_vac.assign(fecha_vacunacion = dd.to_datetime(ddf_vac['fecha_vacunacion'], 
                                                           format = '%Y%m%d', 
                                                           errors="coerce"))
ddf_vac['epi_date'] = ddf_vac['fecha_vacunacion'].map(lambda date : Week.fromdate(date).isoformat())
ddf_vac[['year','epi_week']] = ddf_vac['epi_date'].str.split('W', 1, expand=True)
ddf_vac = ddf_vac.astype({'year': 'int16', 'epi_week': 'int8', 'edad': 'int8'})

# Categorizar la variable "edad" en grupos etáreos
ddf_vac['edad_cat'] = ddf_vac.map_partitions(edad_cat, 'edad')

# Encontrar la variable "departamento" usando "id_eess"
ddf_vac = ddf_vac.merge(vaccenter, how='left', on='id_eess')

# Drop unused cols
ddf_vac = ddf_vac.drop(['fecha_vacunacion', 'epi_date', 'edad', 'id_eess'], axis=1)

## B. Total por cada semana epidemiológica

En esta sección se busca obtener el número **total** de **casos positivos**, **fallecidos** y **vacunados (dosis 1,2 y 3)** por cada **año** y **semana epidemiológica** de todo el Perú. 

In [6]:
# Contar el número de CASOS por año y semana epidemiológica
epi_cas = ddf_cas.groupby(['year', 'epi_week']).count().rename(columns = {'edad_cat':'total_casos'}).compute()
del epi_cas['DEPARTAMENTO']

In [7]:
# Contar el número de FALLECIDOS por año y semana epidemiológica
epi_fal = df_fal.groupby(['year', 'epi_week']).count()
epi_fal = epi_fal.rename(columns = {'DEPARTAMENTO':'total_fallecidos'})
del epi_fal['edad_cat']

In [8]:
# Contar el número de VACUNADOS (dosis 1, dosis 2 y dosis 3) por año y semana epidemiológica
""" Nota: No se puede usar multi-index en la función pivot_table para dask, debido a eso se crea la
función 'crosstab4dask'. Aún es necesario buscar en dask funciones para iterar todas las particiones
más facilmente y optimizar el script. TAREA PENDIENTE """

def crosstab4dask(ddf, var_name):
    """ Función que recibe un dask dataframe 'ddf' y una variable de entrada 'var_name' y realiza 
    una crosstab multi-index de dicha variable por 'year' y 'epi_week' """
    
    lst = []  # Lista para almacenar la sumatoria de cada particion

    for i in range(0, ddf.npartitions):
        df = ddf.partitions[i].compute()
        lst.append(pd.crosstab(index=[df['year'],df['epi_week']], columns = df[var_name]))

    merged_epivac = pd.concat(lst, axis=1).fillna(0).astype(np.int64).groupby(level=0, axis=1).sum()
    
    return merged_epivac

In [9]:
epi_dose = crosstab4dask(ddf_vac, 'dosis')

In [10]:
# Unir los dataframes de casos positivos, fallecidos y dosis de vacunación por año y semana epidemiológica
epiweeks = pd.concat([epi_cas, epi_fal, epi_dose], axis=1) \
             .fillna(0).astype('int64')

epiweeks.rename(columns={1: 'total_dosis_1', 
                         2: 'total_dosis_2', 
                         3: 'total_dosis_3'}, 
                inplace=True)
                              
epiweeks

Unnamed: 0_level_0,Unnamed: 1_level_0,total_casos,total_fallecidos,total_dosis_1,total_dosis_2,total_dosis_3
year,epi_week,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2020,10,6,3,0,0,0
2020,11,51,3,0,0,0
2020,12,279,36,0,0,0
2020,13,458,64,0,0,0
2020,14,1993,227,0,0,0
...,...,...,...,...,...,...
2021,49,9929,274,532127,784272,501014
2021,50,10518,280,631891,845265,389777
2021,51,10735,246,229187,395649,817198
2021,52,20967,271,149580,325788,836767


## C. Por grupo etáreo de todo el Perú

En esta sección se busca obtener el número de **casos positivos**, **fallecidos** y **personas completamente vacunadas** contra COVID-19 por **grupo etáreo**. Se considera como **completamente vacunado** a todas las personas reciberon 2 dosis de vacunación.

In [11]:
# Contar el número de CASOS por grupo etáreo por año y semana epidemiológica
age_dic = {0: '0_17_cas', 1:'18_29_cas',  2: '30_39_cas', 3:'40_49_cas',
           4: '50_59_cas', 5:'60_69_cas', 6:'70_79_cas', 7:'80_more_cas'}  # Age dictionary

df_cas_edad = crosstab4dask(ddf_cas, 'edad_cat').rename(age_dic, axis=1)

In [12]:
# Contar el número de FALLECIDOS por grupo etáreo por año y semana epidemiológica
age_dic = {0: '0_17_fal', 1:'18_29_fal',  2: '30_39_fal', 3:'40_49_fal',
           4: '50_59_fal', 5:'60_69_fal', 6:'70_79_fal', 7:'80_more_fal'}  # Age dictionary

df_fal_edad = pd.crosstab(index = [df_fal['year'], df_fal['epi_week']], 
                          columns = df_fal['edad_cat']).rename(age_dic, axis=1)

In [13]:
# Contar el número de TOTALMENTE VACUNADOS (2 dosis) por grupo etáreo por año y semana epidemiológica
age_dic = {0: '0_17_vac', 1:'18_29_vac',  2: '30_39_vac', 3:'40_49_vac',
           4: '50_59_vac', 5:'60_69_vac', 6:'70_79_vac', 7:'80_more_vac'}  # Age dictionary

df_vac_edad = crosstab4dask(ddf_vac, 'edad_cat').rename(age_dic, axis=1)

In [14]:
# Unir los dataframes de grupos etáreos por año y semana epidemiológica
epiweeks_edad = pd.concat([df_cas_edad, df_fal_edad, df_vac_edad], axis=1) \
                  .fillna(0).astype('int64')

epiweeks_edad.rename(columns={1: 'total_dosis_1', 2: 'total_dosis_2', 3: 'total_dosis_3'}, inplace=True)
                             
epiweeks_edad

Unnamed: 0_level_0,edad_cat,0_17_cas,18_29_cas,30_39_cas,40_49_cas,50_59_cas,60_69_cas,70_79_cas,80_more_cas,0_17_fal,18_29_fal,...,70_79_fal,80_more_fal,0_17_vac,18_29_vac,30_39_vac,40_49_vac,50_59_vac,60_69_vac,70_79_vac,80_more_vac
year,epi_week,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1
2020,10,1,3,0,0,1,0,1,0,0,1,...,0,1,0,0,0,0,0,0,0,0
2020,11,5,16,8,11,2,6,3,0,2,0,...,1,0,0,0,0,0,0,0,0,0
2020,12,16,69,56,49,38,34,12,5,0,2,...,8,6,0,0,0,0,0,0,0,0
2020,13,12,59,107,95,82,65,27,11,5,3,...,16,10,0,0,0,0,0,0,0,0
2020,14,69,424,429,356,362,206,97,50,3,5,...,52,48,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2021,49,760,2270,2454,1806,1118,827,468,226,4,3,...,55,97,402695,487182,254506,135064,82737,249370,151624,54235
2021,50,697,2699,2701,1800,1258,806,345,212,2,7,...,65,102,347254,566660,291991,163635,122086,208965,116150,50192
2021,51,831,2857,2865,1819,1254,623,292,194,2,4,...,64,82,155750,246678,189960,276618,320379,152731,69286,30632
2021,52,1752,5730,5427,3611,2443,1235,511,258,5,10,...,63,83,109692,199071,232091,291378,291342,118474,48145,21942


## D. Por cada departamento del Perú

En esta sección se busca obtener el número de **casos positivos**, **fallecidos** y **personas completamente vacunadas** contra COVID-19 para cada **departamento**. Se considera como **completamente vacunado** a todas las personas reciberon 2 dosis de vacunación.

In [15]:
# Contar el número de CASOS por departamento respecto al año y semana epidemiológica
df_cas_dep = crosstab4dask(ddf_cas, 'DEPARTAMENTO').add_suffix('_cas')

In [16]:
# Contar el número de FALLECIDOS por departamento respecto al año y semana epidemiológica
df_fal_dep = pd.crosstab(index=[df_fal['year'], df_fal['epi_week']],
                         columns=[df_fal['DEPARTAMENTO']],
                         margins = False).add_suffix('_fal')

In [17]:
# Contar el número de personas TOTALMENTE VACUNADAS por departamento respecto al año y semana epidemiológica
df_vac_dep = crosstab4dask(ddf_vac, 'departamento').add_suffix('_vac')

In [18]:
epiweeks_dep = pd.concat([df_cas_dep, df_fal_dep, df_vac_dep], axis = 1).fillna(0)

epiweeks_dep

Unnamed: 0_level_0,Unnamed: 1_level_0,AMAZONAS_cas,ANCASH_cas,APURIMAC_cas,AREQUIPA_cas,AYACUCHO_cas,CAJAMARCA_cas,CALLAO_cas,CUSCO_cas,HUANCAVELICA_cas,HUANUCO_cas,...,LORETO_vac,MADRE DE DIOS_vac,MOQUEGUA_vac,PASCO_vac,PIURA_vac,PUNO_vac,SAN MARTIN_vac,TACNA_vac,TUMBES_vac,UCAYALI_vac
year,epi_week,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1
2020,10,0,0,0,1,0,0,0,0,0,0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2020,11,0,0,0,1,0,0,1,1,0,2,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2020,12,0,4,0,2,0,0,5,3,0,0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2020,13,0,2,0,11,1,1,17,13,0,2,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2020,14,0,18,1,36,2,4,239,43,2,2,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2021,49,152,489,47,208,105,207,344,163,27,185,...,45450.0,10740.0,10102.0,10154.0,115850.0,45318.0,38949.0,12660.0,8008.0,29180.0
2021,50,165,399,50,197,95,217,338,144,66,223,...,65140.0,18943.0,9017.0,9852.0,116126.0,92293.0,48282.0,14646.0,10780.0,41011.0
2021,51,170,463,34,176,62,205,340,120,57,115,...,32166.0,7157.0,8792.0,11810.0,70108.0,51483.0,27211.0,12693.0,9186.0,22347.0
2021,52,242,514,44,591,87,357,822,479,39,205,...,29260.0,4593.0,5548.0,14391.0,64155.0,39367.0,20088.0,10933.0,5154.0,21669.0


## E. Dataset Final

En esta sección se unen todos los dataframes obtenidos de **casos positivos**, **fallecidos** y **personas completamente vacunadas** respecto a grupos etáreos, y departamentos por **año** y **semana epidemiológica**. El dataset obtenido *(Data Product 1)* puede encontrarse en el directorio **Data** o clic en [DP1_covid19-peru_x_semanaEpi.csv](Data/DP1_covid19-peru_x_semanaEpi.csv)

In [19]:
epiweeks_final = pd.concat([epiweeks, epiweeks_edad, epiweeks_dep ], axis = 1).fillna(0).astype('int64')
epiweeks_final

Unnamed: 0_level_0,Unnamed: 1_level_0,total_casos,total_fallecidos,total_dosis_1,total_dosis_2,total_dosis_3,0_17_cas,18_29_cas,30_39_cas,40_49_cas,50_59_cas,...,LORETO_vac,MADRE DE DIOS_vac,MOQUEGUA_vac,PASCO_vac,PIURA_vac,PUNO_vac,SAN MARTIN_vac,TACNA_vac,TUMBES_vac,UCAYALI_vac
year,epi_week,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1
2020,10,6,3,0,0,0,1,3,0,0,1,...,0,0,0,0,0,0,0,0,0,0
2020,11,51,3,0,0,0,5,16,8,11,2,...,0,0,0,0,0,0,0,0,0,0
2020,12,279,36,0,0,0,16,69,56,49,38,...,0,0,0,0,0,0,0,0,0,0
2020,13,458,64,0,0,0,12,59,107,95,82,...,0,0,0,0,0,0,0,0,0,0
2020,14,1993,227,0,0,0,69,424,429,356,362,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2021,49,9929,274,532127,784272,501014,760,2270,2454,1806,1118,...,45450,10740,10102,10154,115850,45318,38949,12660,8008,29180
2021,50,10518,280,631891,845265,389777,697,2699,2701,1800,1258,...,65140,18943,9017,9852,116126,92293,48282,14646,10780,41011
2021,51,10735,246,229187,395649,817198,831,2857,2865,1819,1254,...,32166,7157,8792,11810,70108,51483,27211,12693,9186,22347
2021,52,20967,271,149580,325788,836767,1752,5730,5427,3611,2443,...,29260,4593,5548,14391,64155,39367,20088,10933,5154,21669


In [20]:
epiweeks_final.to_csv('Data/DP1_covid19-peru_x_semanaEpi.csv')