# 0. Librerías y funciones almacenadas

In [2]:
# Librerías
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.firefox.options import Options
from selenium.webdriver.support.ui import Select
from selenium.common.exceptions import NoSuchElementException
from bs4 import BeautifulSoup as bs
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import geopandas as gpd
import seaborn as sns
import folium
import time
import re
import os
from datetime import datetime, date, timedelta
import camelot
import cv2
import tkinter
import pickle

In [3]:
# Configurar preferencias
import warnings
warnings.filterwarnings('ignore')

import ctypes
from ctypes.util import find_library
find_library("".join(("gsdll", str(ctypes.sizeof(ctypes.c_voidp) * 8), ".dll")))

options = Options()
options.headless = True

options.set_preference('permissions.default.image', 2)
options.set_preference('dom.ipc.plugins.enabled.libflashplayer.so', False)
options.set_preference("browser.download.folderList", 2)
options.set_preference("browser.download.manager.showWhenStarting", False)
options.set_preference('pdfjs.disabled', True)
options.set_preference("browser.download.dir", "C:\\Users\\HP SUPPORT\\Documents\\trabajos\\DataMining\\pdfs2023")
options.set_preference("browser.helperApps.neverAsk.saveToDisk", "application/pdf")

In [4]:
# Funciones
def contiene_substring(dataframe, substrings,extract=False):
    for columna in dataframe.columns:
        for indice, valor in dataframe[columna].items():
            for substring in substrings:
                if substring in str(valor):
                    return substring if extract==True else True 
    return False

diccionario_meses = {
    1: "Enero",
    2: "Enero",
    3: "Enero",
    4: "Enero",
    5: "Febrero",
    6: "Febrero",
    7: "Febrero",
    8: "Marzo",
    9: "Marzo",
    10: "Marzo",
    11: "Marzo",
    12: "Marzo",
    13: "Abril",
    14: "Abril",
    15: "Abril",
    16: "Abril",
    17: "Mayo",
    18: "Mayo",
    19: "Mayo",
    20: "Mayo",
    21: "Mayo",
    22: "Junio",
    23: "Junio",
    24: "Junio",
    25: "Junio",
    26: "Julio",
    27: "Julio",
    28: "Julio",
    29: "Julio",
    30: "Julio",
    31: "Agosto",
    32: "Agosto",
    33: "Agosto",
    34: "Agosto",
    35: "Agosto",
    36: "Setiembre",
    37: "Setiembre",
    38: "Setiembre",
    39: "Setiembre",
    40: "Octubre",
    41: "Octubre",
    42: "Octubre",
    43: "Octubre",
    44: "Octubre",
    45: "Noviembre",
    46: "Noviembre",
    47: "Noviembre",
    48: "Noviembre",
    49: "Diciembre",
    50: "Diciembre",
    51: "Diciembre",
    52: "Diciembre"
}

# 1. Preparación de casos de dengue, 2020-2024

En las enumeraciones se encuentra nuestro paso a paso para recuperar la información. No obstante, no es necesario que lo cargue todo, debido a que desde 2023 es un proceso que demora horas. Para la obtención de la tabla completa, diríganse a la enumeración 1.* que está al final del punto 1.

## 1.1. Casos de incidencias de dengue en la actualidad, 2024

* FUENTE: https://www.dge.gob.pe/sala-situacional-dengue/#grafico01
* AUTOR: Centro Nacional de Epidemiología, Prevención y Control de Enfermedades (CDC) del Ministerio de Salud (MINSA) del Perú
* ÚLTIMA ACTUALIZACIÓN: 14 de abril, 2024
* ARCHIVOS DESCARGADOS: 'Sala situacional de enfermedades metaxénicas', derivado de la sección 'Según semana epidemiológica'. Departamentos: 'Lima' y 'Callao'.

Esta página creada por el CDC MINSA informa sobre las incidencias de dengue en función de la semana epidemiológica del 2024.
Por el enfoque de nuestro estudio, descargamos la información de los departamentos de Lima y El Callao, y pretendemos unificar sus registros.

In [5]:
# Importación y agrupación de los registros
lima = pd.read_excel("anexos/incidencias_dengue/lima2024.xlsx",sheet_name="Sheet1")
callao = pd.read_excel("anexos/incidencias_dengue/callao2024.xlsx",sheet_name="Sheet1")
base2024 = pd.concat([lima,callao],axis=0)

# Agregación de columna suma
base2024['Casos'] = base2024['Sin signos de alarma_total'] + base2024['Con signos de alarma_total'] + base2024['Grave_total']
base2024['Año'] = 2024
base2024 = base2024[['Año','Provincia','Distrito','Semana','Casos']] 

# Información
print(f'Dimensiones de incidencias: {base2024.shape} \nLista de atributos: {list(base2024.columns)} ') # (1131 filas, 7 columnas)
base2024.describe()

Dimensiones de incidencias: (1552, 5) 
Lista de atributos: ['Año', 'Provincia', 'Distrito', 'Semana', 'Casos'] 


Unnamed: 0,Año,Semana,Casos
count,1552.0,1552.0,1552.0
mean,2024.0,8.5,32.892397
std,0.0,4.611258,88.026896
min,2024.0,1.0,0.0
25%,2024.0,4.75,0.0
50%,2024.0,8.5,2.0
75%,2024.0,12.25,22.0
max,2024.0,16.0,906.0


Se pueden realizar observaciones preliminares sobre el dataset:
* Contiene la totalidad de sus datos (tiene 1131 registros y cada columna cuenta de 1131 valores).
* No se deberían sumar las semanas, debido a que solo pauta de agrupación de tiempo. Los estadísticos de esa columna no dicen nada.
* Los valores de los cuartiles hasta el 75% informan que la mayor parte del dataset cuenta con valores bastante pequeño, lo que también lo confirman las desviaciones estándar grandes y positivas. La dispersión de los datos de cada variable, tal cual está el dataset, es asimétrica positiva.

## 1.2. Casos de incidencias de dengue 2020-2022

* FUENTE: https://www.datosabiertos.gob.pe/dataset/vigilancia-epidemiol%C3%B3gica-de-dengue
* AUTOR: Centro Nacional de Epidemiología, Prevención y Control de Enfermedades (CDC) del Ministerio de Salud (MINSA) del Perú
* ÚLTIMA ACTUALIZACIÓN: 22 de noviembre, 2023
* ARCHIVOS DESCARGADOS: 'datos_abiertos_vigilancia_dengue.csv'

In [6]:
# Cargar el dataset de 2000 al 2022
peru2000_2022 = pd.read_csv("anexos/incidencias_dengue/peru2000_2022.csv",sep=',',on_bad_lines='warn')
to2022 = peru2000_2022.loc[((peru2000_2022['departamento']=='LIMA') | (peru2000_2022['departamento']=='CALLAO')) & ((peru2000_2022['ano'] <= 2022) & (peru2000_2022['ano'] >= 2020))]
to2022 = to2022[['ano','provincia','distrito','semana']]
to2022['casos'] = 1
to2022.set_index(['ano','provincia','distrito','semana'],inplace=True)

# Agruparlo al formato de trabajo
base2022 = to2022.groupby(level=[0,1,2,3])['casos'].sum().reset_index()
base2022.columns = ['Año','Provincia','Distrito','Semana','Casos']
base2022

Skipping line 87871: expected 14 fields, saw 16
Skipping line 88799: expected 14 fields, saw 16
Skipping line 89573: expected 14 fields, saw 16

Skipping line 176478: expected 14 fields, saw 16
Skipping line 177184: expected 14 fields, saw 16
Skipping line 177191: expected 14 fields, saw 16
Skipping line 183099: expected 14 fields, saw 16

Skipping line 293518: expected 14 fields, saw 16



Unnamed: 0,Año,Provincia,Distrito,Semana,Casos
0,2020,CALLAO,VENTANILLA,8,2
1,2020,CALLAO,VENTANILLA,10,1
2,2020,CALLAO,VENTANILLA,14,1
3,2020,LIMA,ATE,10,1
4,2020,LIMA,ATE,15,1
...,...,...,...,...,...
473,2022,LIMA,VILLA MARIA DEL TRIUNFO,18,4
474,2022,LIMA,VILLA MARIA DEL TRIUNFO,19,4
475,2022,LIMA,VILLA MARIA DEL TRIUNFO,20,2
476,2022,LIMA,VILLA MARIA DEL TRIUNFO,21,1


## 1.3. Casos de incidencias de dengue 2023

* FUENTE: https://www.dge.gob.pe/portalnuevo/informacion-publica/situacion-del-dengue-en-el-peru/
* AUTOR: Centro Nacional de Epidemiología, Prevención y Control de Enfermedades (CDC) del Ministerio de Salud (MINSA) del Perú
* ÚLTIMA ACTUALIZACIÓN: 29 de diciembre, 2023
* ARCHIVOS DESCARGADOS: Todos los .pdf del año 2023

In [None]:
# Crear instancia del navegador
driver = webdriver.Firefox(options=options)
driver.implicitly_wait(300)

# Abrir url en el driver
driver.get('https://www.dge.gob.pe/epipublic/publico/listado/13/2023/0')
driver.maximize_window()
time.sleep(5)

# Colocar 50 registros por página
selectPaginacion = Select(driver.find_element(By.XPATH, '//select[@name="casosIndividual_length"]'))
selectPaginacion.select_by_visible_text('50')
time.sleep(2)

# Tablas
filas = driver.find_elements(By.XPATH, '//a[text()="Ver archivo"]')
for fila in filas:
    fila.click()

In [None]:
# Cambiar nombre de los pdfs
for pdf in os.listdir('pdfs2023'):
    if len(pdf)<=17: pass
    else: os.rename(f"anexos/pdfs2023/{pdf}",f"pdfs2023/{pdf.split('_')[0] + '_' + pdf.split('_')[1]}.pdf")

# EXCLUSIVAMENTE QUE CONTENGAN LAS PALABRAS CLAVES 'LIMA', 'Lima', 'Callao' y '2022 - 2023*'
pdfscraping = {'semana':[],
               'tablas':[]}
claves = ['LIMA','Lima','Callao','2022* - 2023*']

for i in range(1,53):
    if os.path.exists(f'anexos/pdfs2023/dengue_2023{i}.pdf'):
        tables = camelot.read_pdf(f'anexos/pdfs2023/dengue_2023{i}.pdf',flavor='stream',pages='all')
        tablas_interes = [tabla.df for tabla in tables if any(tabla.df.apply(lambda column: column.astype(str).str.contains('|'.join(claves)).any()))]
        
        pdfscraping['semana'] += [i]
        pdfscraping['tablas'] += [tablas_interes]
    else: pass

    if i in [5,10,15,20,25,30,35,40,45,50]:
        print(f'Checkpoint {i}: {datetime.now()}')

# Guardarlo para reusarlo en otra sesión
with open("anexos/pdfs2023/pdfscraping.obj",'wb') as filehandler:
    pickle.dump(pdfscraping,filehandler)

# Revisar cuantas tablas se tienen
acumulados = {'n_tablas':[]}
for i in range(len(pdfscraping['semana'])):
    acumulados['n_tablas'] += [len(pdfscraping['tablas'][i])]

control = pd.DataFrame(acumulados,index=pdfscraping['semana'])
control.sum()

In [None]:
# Seteo de las variables y los diccionarios
agrups = ['Lima Region','Callao','Lima Metropolitana','DIRIS Lima Norte','DIRIS Lima Este','DIRIS Lima Sur','DIRIS Lima Centro']
print('Inicio procesamiento: ', datetime.now())

hemeroteca = []
# Bucle de limpieza de tablas por cada año
for i in range(len(pdfscraping['tablas'])):
    tablas = pdfscraping['tablas'][i]
    sem = f"SE {str(pdfscraping['semana'][i]).zfill(2)}"
    for tabla in tablas:
        # Buscar inicio y final de la tabla
        indexacion = 0
        for col in range(tabla.shape[1]):
            for indice, valor in tabla.iloc[:,col].items():
                if valor.isupper():
                    indexacion = indice
                    break

        # Índice de columna desde SE
        poscol = 0
        for row in range(tabla.shape[0]):
            for column in range(len(tabla.columns)):
                if sem in tabla.iloc[row,column]:
                    poscol = column
                    break

        # Agrupar tabla en las direcciones distritales        
        agrupar = contiene_substring(tabla,agrups,True)
        
        # Transformar tabla        
        transtable = pd.concat([tabla.iloc[:,0],tabla.iloc[:, poscol]],axis=1,ignore_index=True)
        transtable = transtable.iloc[indexacion:,:]
        transtable.columns = ['Distrito','Casos']
        
        # Agregar etiquetas
        transtable['Semana'] = pdfscraping['semana'][i]
        transtable['Región'] = agrupar

        hemeroteca += [transtable]
    
    if i in [5,10,15,20,25,30,35,40,45,50]:
        print(f'Checkpoint {i}: {datetime.now()}')

# Guardar variable como backup
with open("anexos/pdfs2023/tablas.obj",'wb') as filehandler: # Guardarlo para reusarlo en otra sesión
    pickle.dump(hemeroteca,filehandler)

In [7]:
# No se rehace todo el largo proceso: abre el archivo pickle
with open("anexos/pdfs2023/tablas.obj",'rb') as filehandler:
    hemeroteca = pickle.load(filehandler)

dfs = []
for lista_df in dict(hemeroteca).values():
    dfs.extend(lista_df)

In [13]:
# limpieza de la tabla recopilada de los pdfs
semanas = pd.concat(dfs, axis=0,ignore_index=True)
semanas = semanas.loc[~(semanas['Distrito']=='') & (~semanas['Distrito'].str.contains('Total'))]
semanas['Casos'] = pd.to_numeric(semanas['Casos'], errors='coerce')
semanas = semanas[pd.notnull(semanas['Casos'])]

distrital = gpd.read_file('anexos/distritos/distritos-peru@bogota-laburbano.geojson')
distrital = distrital[(distrital['nombdep']=='LIMA')|(distrital['nombdep']=='CALLAO')][['nombdist','nombprov']]
distrital = distrital.iloc[:-1,:]

distrital.columns = ['Distrito','Provincia']
semanas = semanas.merge(distrital,how='left',on="Distrito")
semanas

NameError: name 'dfs' is not defined

### Observaciones con la tabla total

Tablas vacías no correspondientes:
* BARRANCA solo ha tenido 3 casos: 1 en PARAMONGA, 2 en SUPE.
* CAJATAMBO solo ha tenido 2 casos registrados en GORGOR.
* CANTA ha tenido solo dos casos en HUAMANTANGA
* HUARAL solo ha tenido 4 casos: 3 en HUARAL, 1 en AUCALLAMA
* HUAURA ha tenido 3 casos: 2 en Huacho y 1 en Sayan.

Tablas vacías correctas:
* OYON no tiene registros
* YAUYOS no tiene registritos

Tablas que arreglar:
* HUAROCHIRI tiene un total de casos 4 valores menor que el consolidado de 2023.
* CALLAO tiene muchos registros con cantidad de casos 0.
* LIMA tiene muchos registros duplicados.

In [9]:
provincias = list(distrital['Provincia'].value_counts().index)

for prov in provincias:
    ejecutar = f"""
{prov} = semanas[semanas['Distrito'].isin(distrital[distrital['Provincia']=='{prov}']['Distrito'])]
"""
    exec(ejecutar)

LIMA = LIMA[(LIMA['Provincia']=='LIMA')&(LIMA['Casos']!=0)]
LIMA.drop_duplicates(subset=['Distrito','Semana'],inplace=True)

HUAROCHIRI = HUAROCHIRI[(HUAROCHIRI['Provincia']=='HUAROCHIRI')&(HUAROCHIRI['Casos']!=0)]
HUAROCHIRI.at[895,'Casos'] = 28 # (+4) En otras fuente, 
# sale que San Antonio en Huarochiri concentra una gran cantidad de casos. Por ello, para cubrir sus casos totales,
# se añadirán a su semana con más casos

CALLAO = semanas[semanas['Distrito'].isin(distrital[distrital['Provincia']=='CALLAO']['Distrito'])]

agreg = {
    'Provincia': ['BARRANCA', 'BARRANCA', 'CAJATAMBO', 'CANTA', 'HUARAL', 'HUARAL', 'HUAURA', 'HUAURA'],
    'Distrito': ['PARAMONGA', 'SUPE', 'GORGOR', 'HUAMANTANGA', 'HUARAL', 'AUCALLAMA', 'HUACHO', 'SAYAN'],
    'Semana': [20, 20, 10, 18, 17, 42, 21, 22],
    'Casos': [1, 2, 2, 2, 3, 1, 2, 1]
}

tabla2023 = pd.concat([LIMA, CALLAO, HUAROCHIRI,pd.DataFrame(agreg)],axis=0,ignore_index=True)
tabla2023['Año'] = 2023
base2023 = tabla2023.sort_values(['Semana']).reset_index()[['Año','Provincia','Distrito','Semana','Casos']]
base2023.to_csv('anexos/incidencias_dengue/2023.csv')

print('Dimensiones de la tabla: ',base2023.shape)
print('Cantidad de casos acumulados en 2023: ',base2023['Casos'].sum())

Dimensiones de la tabla:  (1025, 5)
Cantidad de casos acumulados en 2023:  16464.0


## 1.4. Concatenación y preparación de las tablas

In [51]:
# Concatenar tablas
base = pd.concat([base2022,base2023,base2024],axis=0,ignore_index=True)
base['Semana'].replace(diccionario_meses,inplace=True)
base.drop(base[base['Semana']==53].index,inplace=True)
base.columns = ['Año','Provincia','Distrito','Mes','Casos']

# Agrupar casos por meses
base.set_index(['Año','Provincia','Distrito','Mes'],inplace=True)
base = base.groupby(level=[0,1,2,3])['Casos'].sum()
base = base.reset_index()

In [21]:
# Agregar filas con casos igual a 0
pairs = {(row['Provincia'], row['Distrito']) for index, row in distrital.iterrows()}

años = [2020,2021,2022,2023,2024]
meses = list(diccionario_meses.values())

for año in años:
    print(año, ' - ', datetime.now())
    for mes in meses:
        for provincia, distrito in pairs:
            registro = {'Año':año,'Provincia':provincia,'Distrito':distrito,'Mes':mes,'Casos':0}
            base.loc[base.shape[0]] = registro

base.drop_duplicates(subset=['Año','Provincia','Distrito','Mes'],inplace=True,ignore_index=True)
base.drop(base[(base['Año']==2024) & (base['Mes'].isin(['Mayo','Junio','Julio','Agosto','Setiembre','Octubre','Noviembre','Diciembre']))].index,inplace=True)
base

2020  -  2024-04-28 10:53:23.299634
2021  -  2024-04-28 10:53:42.158485
2022  -  2024-04-28 10:54:07.312638
2023  -  2024-04-28 10:54:35.514630
2024  -  2024-04-28 10:55:04.999375


Unnamed: 0,Año,Provincia,Distrito,Mes,Casos
0,2020,CALLAO,VENTANILLA,Abril,1.0
1,2020,CALLAO,VENTANILLA,Marzo,3.0
2,2020,LIMA,ATE,Abril,3.0
3,2020,LIMA,ATE,Marzo,1.0
4,2020,LIMA,ATE,Mayo,21.0
...,...,...,...,...,...
9252,2024,YAUYOS,COCHAS,Abril,0.0
9253,2024,YAUYOS,ALLAUCA,Abril,0.0
9254,2024,HUARAL,PACARAOS,Abril,0.0
9255,2024,HUAROCHIRI,SAN LORENZO DE QUINTI,Abril,0.0


Ya se tienen ahora todos los distritos mapeados para la serie temporal. En la exploración, se observa que una 'ñ' de Breña no se registró bien, de modo que se corregirá.

In [30]:
base.iloc[3136,4] = 1
base = base.drop(66)

base['Distrito'].value_counts()

Distrito
SAN LUIS       104
SAN ANTONIO    104
LARAOS         104
MIRAFLORES     104
VIÑAC           52
              ... 
SAN BARTOLO     52
SANTA ROSA      52
SURQUILLO       52
BARRANCA        52
NAVAN           52
Name: count, Length: 174, dtype: int64

In [31]:
# Exportación
base.to_csv('datasets/dengue.csv',index=False)

## 1.* Importación directa de tabla completa

In [6]:
base = pd.read_csv('datasets/dengue.csv')
base

Unnamed: 0,Año,Provincia,Distrito,Mes,Casos
0,2020,CALLAO,VENTANILLA,Abril,1.0
1,2020,CALLAO,VENTANILLA,Marzo,3.0
2,2020,LIMA,ATE,Abril,3.0
3,2020,LIMA,ATE,Marzo,1.0
4,2020,LIMA,ATE,Mayo,21.0
...,...,...,...,...,...
5043,2023,BARRANCA,PATIVILCA,Diciembre,0.0
5044,2023,CANTA,CANTA,Diciembre,0.0
5045,2023,HUAURA,CALETA DE CARQUIN,Diciembre,0.0
5046,2023,HUAURA,VEGUETA,Diciembre,0.0


# 2. Importación y preparación de archivos ShapeFile para la visualización provincial y distrital del Perú.

* FUENTE: https://www.geogpsperu.com/2018/02/limite-provincial-politico-shapefile.html
* AUTOR: GEO GPS PERÚ (recopilado del Instituto Nacional de Estadística)
* ÚLTIMA ACTUALIZACIÓN: 2023
* ARCHIVOS DESCARGADOS: 'Límites_distritales.rar' y 'Límites_provinciales.rar' (INEI, 2023)

Los archivos descargados contienen la información poligonal de los distritos y las provincias de todo el Perú, que luego será utilizada para realizar el análisis espacial pertinente en el API de OpenStreetMaps. La variable de interés para la tarea es 'geometry'; las de unión, 'provincia' y 'distrito'.

In [7]:
# Importación de valores geométricos para visualización espacial

distrital = gpd.read_file('datasets/distritos/distritos.shp')
print(f'Dimensiones de distritos.shp: {distrital.shape} \nLista de atributos: {list(distrital.columns)} ') # (1891 filas, 10 columnas)

provincial = gpd.read_file('datasets/provincias/provincias.shp')
print(f'\nDimensiones de provincias.shp: {provincial.shape} \nLista de atributos: {list(provincial.columns)} ') # (196 filas, 6 columnas)

Dimensiones de distritos.shp: (1891, 10) 
Lista de atributos: ['UBIGEO', 'CCDD', 'CCPP', 'CCDI', 'DEPARTAMEN', 'PROVINCIA', 'DISTRITO', 'OBJECTID', 'ESRI_OID', 'geometry'] 

Dimensiones de provincias.shp: (196, 6) 
Lista de atributos: ['OBJECTID', 'CCDD', 'CCPP', 'DEPARTAMEN', 'PROVINCIA', 'geometry'] 


### Registros borrados

En ambas tablas, nos quedaremos exclusivamente con los registros que corresponden a los departamentos de Lima y El Callao. Para ello, se realiza una selección de filas donde los valores de las columnas 'DEPARTAMEN' sean 'LIMA' o 'CALLAO'.

### Columnas mantenidas
* DISTRITO (solo tabla distrito): etiqueta de nombre de distrito.
* PROVINCIA: etiqueta de nombre de provincia.
* geometry: contiene la información geométrica de la zona.

Asimismo, se pasarán los nombres de las columnas a minúsculas para mantener integridad de nombre de columnas con las tablas que se trabajarán más adelante.

In [8]:
# Pasando los nombres de las columnas a minúsculas

distrital.columns = distrital.columns.str.capitalize()
provincial.columns = provincial.columns.str.capitalize()

# Selección de registros y proyección de atributos de interés
provincial = provincial.loc[((provincial['Departamen']=='LIMA') | (provincial['Departamen']=='CALLAO'))].reset_index()
provincial = provincial[['Objectid','Provincia','Geometry']]

distrital = distrital.loc[((distrital['departamen']=='LIMA') | (distrital['departamen']=='CALLAO'))].reset_index()
distrital = distrital[['Objectid','Provincia','Distrito','Geometry']]

print(f'Dimensiones de distrital: {distrital.shape}') # (178 filas, 4 columnas)
print(f'Dimensiones de provincial: {provincial.shape}') # (11 filas, 3 columnas)

Dimensiones de distrital: (178, 4)
Dimensiones de provincial: (11, 3)


In [9]:
# Completitud de datos en distritos
print(f'Completitud de datos en distritos (filas totales: 178): \n{distrital.count()} \n\nCompletitud de datos en provincial (filas totales: 11): \n{provincial.count()}')

Completitud de datos en distritos (filas totales: 178): 
objectid     178
provincia    178
distrito     178
geometry     178
dtype: int64 

Completitud de datos en provincial (filas totales: 11): 
objectid     11
provincia    11
geometry     11
dtype: int64


Ningún dato faltante en ambas tablas. Podemos ya trabajar con estas.

# 3. Combinación de las tablas y observación espacial

Ahora que disponemos que la información poligonal tanto para los distritos y las provincias, combinaremos ambas tablas para poder realizar una exploración espacial.

In [10]:
from sklearn.preprocessing import MinMaxScaler, StandardScaler

# Combinación con las tablas de información geográfica poligonal
geoprov = gpd.GeoDataFrame(base_provincia.merge(provincial,how='left',on='provincia')).set_geometry('geometry')
geodist = gpd.GeoDataFrame(base_distrito.merge(distrital,how='left',on=['provincia','distrito'])).set_geometry('geometry')


scaler = MinMaxScaler()
geoprov[['total']] = scaler.fit_transform(geoprov[['total']])
geodist[['total']] = scaler.fit_transform(geodist[['total']])

# Revisando que las tablas generadas tengan la totalidad de registros
print(f'Completitud de datos en distritos (filas totales: {geodist.shape[0]}): \n{geodist.count()} \n\nCompletitud de datos en provincial (filas totales: {geoprov.shape[0]}): \n{geoprov.count()}')

Completitud de datos en distritos (filas totales: 87): 
provincia                     87
distrito                      87
sin signos de alarma_total    87
con signos de alarma_total    87
grave_total                   87
total                         87
objectid                      87
geometry                      87
dtype: int64 

Completitud de datos en provincial (filas totales: 11): 
provincia                     11
sin signos de alarma_total    11
con signos de alarma_total    11
grave_total                   11
total                         11
objectid                      11
geometry                      11
dtype: int64


La totalidad de los datos de las dos tablas se agrupan satisfactoriamente.

### Visualizador interactivo

In [11]:
import ipywidgets
from IPython.display import HTML, display

style_function = lambda x: {'fillColor': '#ffffff', 
                            'color':'#000000', 
                            'fillOpacity': 0.1, 
                            'weight': 0.1}
highlight_function = lambda x: {'fillColor': '#000000', 
                                'color':'#000000', 
                                'fillOpacity': 0.50, 
                                'weight': 0.1}

outmap = ipywidgets.Output(layout={'border': '1px solid black'})
outgraph = ipywidgets.Output(layout={'border': '1px solid black'})

df = {'Provincias':geoprov,'Distritos':geodist}

w = ipywidgets.Dropdown(
    options=['Provincias','Distritos'],
    value=None,
    description='Dataset:',
    disabled=False,
)

def on_dropdown_change(change):   
    outmap.clear_output()
    outgraph.clear_output()
    gpd = df.get(w.value)
    
    with outmap:
        m = folium.Map(location=[gpd.centroid.y.mean(), gpd.centroid.x.mean()], zoom_start=7.2)
        range = (gpd['total'].quantile((0,0.001,0.05,0.3,0.5,0.8,0.9,0.98,1))).tolist()
        cp = folium.Choropleth(
              geo_data=gpd,
              name="choropleth",
              data=gpd,
              columns=['objectid','total'],
              key_on='feature.properties.objectid',
              threshold_scale=range,
              fill_color="YlGn",
              fill_opacity=0.7,
              line_opacity=0.2,
              legend_name="Incidencias de dengue (re-escalado)",
              smooth_factor=0
        ).add_to(m)

        if w.value == 'Provincias':
            fields=['provincia','sin signos de alarma_total','con signos de alarma_total','grave_total']
            aliases=['Provincia: ','Sin signos de alarma: ','Con signos de alarma: ','Grave: ']
        elif w.value == 'Distritos':
            fields=['provincia','distrito','sin signos de alarma_total','con signos de alarma_total','grave_total']
            aliases=['Provincia: ','Distrito: ','Sin signos de alarma: ','Con signos de alarma: ','Grave: ']
        
        funk = folium.features.GeoJson(
            gpd,
            style_function=style_function, 
            control=False,
            highlight_function=highlight_function, 
            tooltip=folium.features.GeoJsonTooltip(
                fields=fields,
                aliases=aliases,
                style=("background-color: white; color: #333333; font-family: arial; font-size: 12px; padding: 10px;") 
            )
        )
        m.add_child(funk)
        m.keep_in_front(funk)
        folium.LayerControl().add_to(m)
        
        display(m)

    with outgraph:
        if w.value == 'Provincias':
            graph002 = base_provincia[['provincia','sin signos de alarma_total','con signos de alarma_total','grave_total','total']].copy().set_index('provincia')
            graph002.rename(columns={x : x[:-6] for x in graph002.columns[:-1]},inplace=True)
            
            # Gráfico
            graph002 = graph002.sort_values(by='total',ascending=True)
            
            cum = 0
            for columna in graph002.columns[:-1]:
                plt.barh(graph002.index,graph002[columna],label=columna,left=cum)
                cum += graph002[columna]

            plt.xlabel('Casos reportados')
            plt.ylabel('Provincia')
            plt.title('Incidencias de Dengue en el 2024', fontweight='bold')
            
            # Tabla (por alguna razón, la tabla entrega los valores al revés; así que por ello debemos volver a ordenar)
            graph002 = graph002.sort_values(by='total',ascending=False)
            plt.gcf().set_size_inches(12, 4)
            
            plt.table(cellText=graph002['total'].values.reshape(-1, 1),
                      rowLabels=graph002.index.tolist(),
                      colLabels=['Total'],
                      loc='right',
                      bbox=[1.3, 0, 0.2, 1], 
                      colWidths=[0.1])

            
            plt.legend()
            plt.tight_layout()
            plt.show()
        elif w.value == 'Distritos':
            graph002 = base_distrito[['provincia','distrito','sin signos de alarma_total','con signos de alarma_total','grave_total','total']].copy().set_index(['provincia','distrito'])
            graph002 = graph002.sort_values(by='total',ascending=False)
            graph002.rename(columns={x : x[:-6] for x in graph002.columns[:-1]},inplace=True)

            print("Top 10: ")
            display(graph002.head(10))
            print("Bottom 10: ")
            display(graph002.tail(10))
        

w.observe(on_dropdown_change, names='value')
display(w)

display(outmap)
display(outgraph)

Dropdown(description='Dataset:', options=('Provincias', 'Distritos'), value=None)

Output(layout=Layout(border_bottom='1px solid black', border_left='1px solid black', border_right='1px solid b…

Output(layout=Layout(border_bottom='1px solid black', border_left='1px solid black', border_right='1px solid b…

Skipping line 87871: expected 14 fields, saw 16
Skipping line 88799: expected 14 fields, saw 16
Skipping line 89573: expected 14 fields, saw 16

Skipping line 176478: expected 14 fields, saw 16
Skipping line 177184: expected 14 fields, saw 16
Skipping line 177191: expected 14 fields, saw 16
Skipping line 183099: expected 14 fields, saw 16

Skipping line 293518: expected 14 fields, saw 16



Unnamed: 0,Año,Provincia,Distrito,Semana,Casos
0,2020,CALLAO,VENTANILLA,8,2
1,2020,CALLAO,VENTANILLA,10,1
2,2020,CALLAO,VENTANILLA,14,1
3,2020,LIMA,ATE,10,1
4,2020,LIMA,ATE,15,1
...,...,...,...,...,...
473,2022,LIMA,VILLA MARIA DEL TRIUNFO,18,4
474,2022,LIMA,VILLA MARIA DEL TRIUNFO,19,4
475,2022,LIMA,VILLA MARIA DEL TRIUNFO,20,2
476,2022,LIMA,VILLA MARIA DEL TRIUNFO,21,1


In [13]:
peru2020_2022

Unnamed: 0,ano,provincia,distrito,semana
348587,2020,LIMA,PUENTE PIEDRA,5
350849,2020,LIMA,PUENTE PIEDRA,5
350859,2020,LIMA,PUENTE PIEDRA,6
352442,2020,CALLAO,VENTANILLA,8
352443,2020,CALLAO,VENTANILLA,8
...,...,...,...,...
501514,2022,LIMA,INDEPENDENCIA,29
501515,2022,LIMA,INDEPENDENCIA,29
501516,2022,LIMA,INDEPENDENCIA,3
501517,2022,LIMA,INDEPENDENCIA,49


In [71]:
peru2020_2022 = peru2000_2022.loc[((peru2000_2022['departamento']=='LIMA') | (peru2000_2022['departamento']=='CALLAO')) & ((peru2000_2022['ano'] <= 2022) & (peru2000_2022['ano'] >= 2020))]
peru2020_2022.loc[(peru2000_2022['provincia']=='CALLAO'),'distrito'] = 'CALLAO' 
peru2020_2022 = peru2020_2022[['ano','provincia','distrito','semana']]
peru2020_2022['casos'] = 1

In [80]:
peru2020_2022.set_index(['ano','provincia','distrito','semana'],inplace=True)
inc_semanas = peru2020_2022.groupby(level=[0,1,2,3])['casos'].sum()
#inc_semanas

inc_distritos = peru2020_2022.groupby(level=[0,1,2])['casos'].sum()
#inc_distritos

inc_provincias = peru2020_2022.groupby(level=[0,1])['casos'].sum()
#inc_provincias

inc_anual = peru2020_2022.groupby(level=[0])['casos'].sum()
#inc_anual

inc_semanal = peru2020_2022.groupby(level=[0,1,3])['casos'].sum()
inc_anual

ano
2020     354
2021    1199
2022     946
Name: casos, dtype: int64