# Obteniendo el número de muertes confirmadas y vacunados contra COVID-19 por semana epidemiológica de cada uno de los 24 departamentos del Perú 

## 0. Cargar librerías

In [1]:
import pandas as pd
import numpy as np
import dask.dataframe as dd
from epiweeks import Week

import functions as fn

## 1. Cargar direcciones de RawData

In [2]:
vac_url = 'RawData/TB_VACUNACION_COVID19.csv'
fal_url = 'RawData/fallecidos_covid.csv'

## 2. Procesar del dataset de fallecidos

### 2.1. Leer el dataset

In [3]:
# Leer solamente la columna fecha de fallecimiento y departamento
fal_col = ['FECHA_FALLECIMIENTO', 'DEPARTAMENTO']
df_fal =  pd.read_csv(fal_url, sep = ';', usecols = fal_col, dtype = {'FECHA_FALLECIMIENTO':'int32', 'DEPARTAMENTO': 'category'})
del fal_col

# Transformar a formato fecha
df_fal.loc[:,'FECHA_FALLECIMIENTO'] = pd.to_datetime(df_fal['FECHA_FALLECIMIENTO'], format = '%Y%m%d')
df_fal.head()

Unnamed: 0,FECHA_FALLECIMIENTO,DEPARTAMENTO
0,2021-06-11,LAMBAYEQUE
1,2021-03-17,PIURA
2,2021-06-02,ICA
3,2021-07-03,AREQUIPA
4,2021-05-06,LIMA


### 2.2. Procesar el dataset

Se añaden 3 columnas. El año, la semana epidemiológica correspondiente y un contador para contar cada caso de fallecimiento por COVID-19. Se elimina la columna **'fecha_fallecimiento'**.

In [4]:
# Agregamos el año y semana epidemilógica de cada fallecido
fn.date_to_epiweek(df_fal,'FECHA_FALLECIMIENTO')
                 
df_fal = df_fal.astype({'year': 'int16', 'epi_week': 'int8'})

del df_fal['FECHA_FALLECIMIENTO']
df_fal.head()

Unnamed: 0,DEPARTAMENTO,year,epi_week
0,LAMBAYEQUE,2021,23
1,PIURA,2021,11
2,ICA,2021,22
3,AREQUIPA,2021,26
4,LIMA,2021,18


**IMPORTANTE:** No tenemos el total de fallecidos por departamento y semana epidemiológica, sino el departamento y semana epidemiológica de cada caso.

### 2.3. Realizar una crosstab de fallecidos por COVID-19 por departamento de Perú, para cada año y semana epidemiológica

Esto se lo realiza para obtener el TOTAL de fallecidos por cada departamento y semana epidemiológica

In [21]:
falxdep = pd.crosstab(index=[df_fal['year'], df_fal['epi_week']],
                      columns=[df_fal['DEPARTAMENTO']],
                      margins = False)

falxdep = falxdep.add_suffix('_fal')
falxdep

Unnamed: 0_level_0,DEPARTAMENTO,AMAZONAS_fal,ANCASH_fal,APURIMAC_fal,AREQUIPA_fal,AYACUCHO_fal,CAJAMARCA_fal,CALLAO_fal,CUSCO_fal,HUANCAVELICA_fal,HUANUCO_fal,...,LORETO_fal,MADRE DE DIOS_fal,MOQUEGUA_fal,PASCO_fal,PIURA_fal,PUNO_fal,SAN MARTIN_fal,TACNA_fal,TUMBES_fal,UCAYALI_fal
year,epi_week,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1
2020,10,0,0,0,0,0,0,0,0,0,0,...,1,0,0,0,0,0,2,0,0,0
2020,11,0,0,0,0,0,0,0,0,0,0,...,1,0,0,0,1,0,0,0,0,0
2020,12,0,0,0,0,1,0,0,1,0,0,...,3,0,0,0,1,0,0,0,0,2
2020,13,0,4,0,0,0,0,2,3,0,0,...,6,1,0,0,2,1,0,0,0,3
2020,14,0,0,0,15,0,2,15,2,0,0,...,9,0,0,0,9,0,3,1,3,11
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2021,45,2,10,2,7,6,3,4,5,4,2,...,0,1,3,3,24,7,3,1,2,1
2021,46,1,11,3,7,6,2,8,4,2,2,...,1,2,2,1,32,14,3,6,0,0
2021,47,1,12,3,8,2,4,12,4,4,1,...,2,1,1,1,25,6,1,2,4,2
2021,48,3,8,2,9,8,2,9,6,1,2,...,0,1,1,1,38,11,3,3,2,2


Ahora tenemos el número de fallecidos por cada departamento y semana epidemiológica

## 3. Procesar el dataset de vacunados

No existe una manera directa de calcular el total de personas completamente vacunadas por departamento. Para lograrlo se prevee lo siguiente:

- El dataset de vacunados (RawData/TB_VACUNACION_COVID19.csv) solo proporciona información sobre el centro de vacunación llamado **'id_centro_vacunacion'**. NO el departamento.

- El dataset de los centros de vacunación [(RawData/TB_CENTRO_VACUNACION.csv)]() se puede utilizar para hacer **"match"** del **'id_centro_vacunacion'** del dataset de vacunados con la variable **'id_ubigeo'**. Que es una variable numérica de 0 a 1894 que representa a cada distrito.

- Finalmente, con el dataset de UBIGEO [(RawData/TB_UBIGEOS.csv)]() es posible reemplazar a cada **'id_ubigeo'** con el departamento respectivo.

### 3.1. Leer el dataset


In [8]:
# Leemos solo la columna dosis del dataset de vacunados usando dask
vac_col = ['id_eess', 'dosis', 'fecha_vacunacion']
df_vac = dd.read_csv(vac_url, sep = ",", usecols = vac_col, 
                     dtype = {'id_eess':'int32','dosis': 'int8', 'fecha_vacunacion':'int32'})

# Déjamos solamente a personas con 3 o menos dosis
df_vac = df_vac[df_vac['dosis'] == 2]
del df_vac['dosis']

# Convertimos a formato fecha
df_vac = df_vac.assign(fecha_vacunacion = dd.to_datetime(df_vac["fecha_vacunacion"], format = "%Y%m%d", 
                                                         errors="coerce"))

del vac_col
df_vac.head()

Unnamed: 0,fecha_vacunacion,id_eess
0,2021-07-01,18536
1,2021-07-03,4482
3,2021-11-26,24328
13,2021-10-28,23890
16,2021-11-20,17753


### 3.2. Procesar el dataset

In [9]:
# Obtenemos el año y semana epidemiológica en una sola columna
df_vac['epi_date'] = df_vac['fecha_vacunacion'].map(lambda date : Week.fromdate(date).isoformat())
del df_vac['fecha_vacunacion']

# Se separa la columna obtenida en 2, una para el año y otra para la semana epidemiológica
df_vac[['year','epi_week']] = df_vac['epi_date'].str.split("W", 1, expand=True)
del df_vac['epi_date']

# Cambiamos el tipo de variable para consumir menos recursos
df_vac['year'] = df_vac['year'].astype('int16')
df_vac['epi_week'] = df_vac['epi_week'].astype('int8')

df_vac.head()

Unnamed: 0,id_eess,year,epi_week
0,18536,2021,26
1,4482,2021,26
3,24328,2021,47
13,23890,2021,43
16,17753,2021,46


### 3.3. Procesar los datasets de **UBIGEO** y **CENTROS DE VACUNACIÓN**.

#### 3.3.1. Cargar direcciones de RawData

In [10]:
ubigeo_url = 'RawData/TB_UBIGEOS.csv'
vaccenter_url = 'RawData/TB_EESS.csv'

#### 3.3.2. Procesar los datasets

Para el dataset de UBIGEO solo se necesita las columnas 'id_ubigeo' y 'departamento'. Para el dataset de CENTROS DE VACUNACIÓN solo se necesitan las columnas 'id_centro de vacunación' e 'id_ubigeo'.

In [12]:
# Leemos los datasets de ubigeo y centros de vacunación
ubigeo = pd.read_csv(ubigeo_url, usecols = ['id_ubigeo', 'departamento'])
vaccenter = pd.read_csv(vaccenter_url, usecols= ['id_eess','id_ubigeo'])

# Unimos ambos dataset mediante 'id_ubigeo'
vaccenter = vaccenter.merge(ubigeo, on = 'id_ubigeo', how = 'left')
del ubigeo, vaccenter['id_ubigeo']

vaccenter.head()

Unnamed: 0,id_eess,departamento
0,17241,LORETO
1,14145,LORETO
2,7083,LORETO
3,549,LORETO
4,3207,LORETO


Ahora con el nuevo dataset **(vaccenter)** es posible encontrar el departamento correspondiente a 'id_centro de vacunacion' del dataset de vacunados **(df_vac)**.

#### 3.3.3. Encontrar el departamento correspondiente de todas las personas vacunadas

In [13]:
df_vac = df_vac.merge(vaccenter, on = 'id_eess', how = 'left')
del df_vac['id_eess']
del vaccenter

df_vac.head()

Unnamed: 0,year,epi_week,departamento
0,2021,26,LIMA
1,2021,26,LIMA
2,2021,47,CAJAMARCA
3,2021,43,LIMA
4,2021,46,PIURA


### 3.4. Crosstab del número de dosis (1,2 y 3) respecto al año y semana epidemiológica

**Nota:** No se puede usar multi-index en pivot_table para dask, debido a eso se crea la función **'crosstab4dask'**. Aún es necesario buscar en dask funciones para iterar todas las particiones más facilmente y optimizar el script **(Pendiente)**.

In [14]:
def crosstab4dask(ddf):
    """Función que recibe un dask dataframe (ddf) y realiza conteos de variables en cada partición
    y devuelve el total por los index que hayamos ingresado, en este caso 'year' y 'epi_week'."""
    
    lst = [] # Lista para almacenar la sumatoria de cada particion

    for i in range(0, ddf.npartitions):
        ddf = df_vac.partitions[i].compute()
        lst.append(pd.crosstab(index=[ddf['year'],ddf['epi_week']], columns = ddf['departamento']))

    merged_epivac = pd.concat(lst, axis=1)  # Merge all dfs
    del lst

    merged_epivac = merged_epivac.fillna(0).astype(np.int64)
    merged_epivac = merged_epivac.groupby(level=0, axis=1).sum()
    
    return merged_epivac

In [15]:
vac_dose = crosstab4dask(df_vac)
vac_dose = vac_dose.add_suffix('_vac')
vac_dose

Unnamed: 0_level_0,departamento,AMAZONAS,ANCASH,APURIMAC,AREQUIPA,AYACUCHO,CAJAMARCA,CALLAO,CUSCO,HUANCAVELICA,HUANUCO,...,LORETO,MADRE DE DIOS,MOQUEGUA,PASCO,PIURA,PUNO,SAN MARTIN,TACNA,TUMBES,UCAYALI
year,epi_week,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1
2021,6,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2021,7,0,0,0,0,0,0,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0
2021,8,0,2,0,0,0,0,0,0,0,1,...,1,0,0,3,0,0,0,0,0,0
2021,9,887,1975,2496,3763,2362,2726,4639,3204,888,2032,...,1752,373,1006,816,3833,1547,2927,1207,731,456
2021,10,529,1083,833,4584,2804,939,5445,3905,1621,181,...,1262,168,1373,561,2103,2354,4407,1665,940,1230
2021,11,2726,5544,2813,6467,1424,5080,4609,3058,1837,4664,...,2499,923,1110,1422,7319,3558,255,1138,514,1819
2021,12,352,1551,492,2038,776,2252,2204,1041,618,978,...,1136,282,203,233,985,864,1002,455,421,786
2021,13,170,328,371,338,242,403,9795,300,249,185,...,337,103,23,226,204,358,22,57,171,159
2021,14,175,547,328,2864,339,535,17608,452,140,265,...,7817,127,105,128,458,550,290,180,100,316
2021,15,96,4566,130,11601,127,226,9707,291,77,202,...,373,63,149,34,1291,236,4163,75,1622,475


In [27]:
falvac_dep = pd.concat([falxdep, vac_dose], axis = 1).fillna(0)
falvac_dep

Unnamed: 0_level_0,Unnamed: 1_level_0,AMAZONAS_fal,ANCASH_fal,APURIMAC_fal,AREQUIPA_fal,AYACUCHO_fal,CAJAMARCA_fal,CALLAO_fal,CUSCO_fal,HUANCAVELICA_fal,HUANUCO_fal,...,LORETO_vac,MADRE DE DIOS_vac,MOQUEGUA_vac,PASCO_vac,PIURA_vac,PUNO_vac,SAN MARTIN_vac,TACNA_vac,TUMBES_vac,UCAYALI_vac
year,epi_week,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1
2020,10,0,0,0,0,0,0,0,0,0,0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2020,11,0,0,0,0,0,0,0,0,0,0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2020,12,0,0,0,0,1,0,0,1,0,0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2020,13,0,4,0,0,0,0,2,3,0,0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2020,14,0,0,0,15,0,2,15,2,0,0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2021,45,2,10,2,7,6,3,4,5,4,2,...,16101.0,1771.0,1837.0,2706.0,40989.0,14199.0,12706.0,3639.0,1004.0,3614.0
2021,46,1,11,3,7,6,2,8,4,2,2,...,14096.0,2283.0,1878.0,3011.0,35067.0,15319.0,13078.0,3559.0,592.0,6393.0
2021,47,1,12,3,8,2,4,12,4,4,1,...,26282.0,1466.0,4326.0,3189.0,46063.0,11858.0,33353.0,3451.0,5048.0,14387.0
2021,48,3,8,2,9,8,2,9,6,1,2,...,42490.0,4074.0,3006.0,3975.0,57173.0,10624.0,20124.0,2263.0,3847.0,17140.0


In [28]:
falvac_dep.to_csv('Data/vacunados_y_fallecidos_x_semanaEpi_x_departamentos.csv')