## Descripción del Problema
El problema se enmarca en el Sistema de Vigilancia de Salud Pública (Sivigila), que recopila y analiza datos de los casos de diferentes patologias notificados y confirmados por laboratorio o nexo epidemiológico en Colombia.

En el presente trabajo se pretende realizar un realizar un análisis exploratorio sobre el conjunto de datos epidemiológicos obtenidos del sistema SIVIGILA (Colombia) centrado en la patologia DENGUE en el periodo 2022-2024 enfocado en detectar patrones, tendencias y posibles predicciones de esta enfermedad.

El conjunto de datos esta disponible en: https://portalsivigila.ins.gov.co/Paginas/Buscador.aspx

### Importar librerias

In [1]:
import pandas as pd
from pathlib import Path
import sys

# Agregar el directorio raíz del proyecto al sys.path para permitir importaciones de utilidades realizadas
project_root = Path.cwd().parent
sys.path.insert(0, str(project_root))

# Importar la función directamente desde el paquete src para cargar los datos
from src import data_utils


### Carga Datos
En esta sección se realiza la unión de los archivos descargados desde el portal del SIVIGILA, utilizando el módulo de utilidades. Posteriormente, se convierten en un único archivo CSV consolidado para su análisis.

In [18]:
## Cargar los datos utilizando la función del módulo data_utils

df = data_utils.cargar_excels()
data_utils.guardar_dataframe(df, 'datos_full')


En esta sección se realiza la lectura del archivo CSV previamente generado, con el fin de disponer de los datos unificados para su posterior análisis.

In [19]:
df = pd.read_csv('../data/processed/datos_full.csv')

  df = pd.read_csv('../data/processed/datos_full.csv')


In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 501729 entries, 0 to 501728
Data columns (total 73 columns):
 #   Column                     Non-Null Count   Dtype  
---  ------                     --------------   -----  
 0   CONSECUTIVE                501729 non-null  int64  
 1   COD_EVE                    501729 non-null  int64  
 2   FEC_NOT                    501729 non-null  object 
 3   SEMANA                     501729 non-null  int64  
 4   ANO                        501729 non-null  int64  
 5   COD_PRE                    501729 non-null  int64  
 6   COD_SUB                    501729 non-null  int64  
 7   EDAD                       501729 non-null  int64  
 8   UNI_MED                    501729 non-null  int64  
 9   nacionalidad               501729 non-null  int64  
 10  nombre_nacionalidad        501729 non-null  object 
 11  SEXO                       501729 non-null  object 
 12  COD_PAIS_O                 501729 non-null  int64  
 13  COD_DPTO_O                 50

In [21]:
for i in range(0, df.shape[1], 20):
    display(df.describe(include='all').iloc[:, i:i+20])

Unnamed: 0,CONSECUTIVE,COD_EVE,FEC_NOT,SEMANA,ANO,COD_PRE,COD_SUB,EDAD,UNI_MED,nacionalidad,nombre_nacionalidad,SEXO,COD_PAIS_O,COD_DPTO_O,COD_MUN_O,AREA,OCUPACION,TIP_SS,COD_ASE,PER_ETN
count,501729.0,501729.0,501729,501729.0,501729.0,501729.0,501729.0,501729.0,501729.0,501729.0,501729,501729,501729.0,501729.0,501729.0,501729.0,501729.0,501729,491912,501729.0
unique,,,1170,,,,,,,,134,2,,,,,1292.0,6,135,
top,,,2024-06-17,,,,,,,,COLOMBIA,M,,,,,99999.05,S,EPS005,
freq,,,1787,,,,,,,,304076,253726,,,,,182131.0,245020,48534,
mean,10740940.0,210.0,,26.333979,2023.486191,5166173000.0,4.860502,23.458742,1.015211,183.148546,,,170.902677,51.729749,274.456113,1.279816,,,,5.887274
std,729242.2,0.0,,14.38047,0.71531,2675821000.0,11.408558,18.814008,0.125893,94.149055,,,24.691469,26.605085,294.655099,0.64455,,,,0.637264
min,8908033.0,210.0,,1.0,2022.0,500100000.0,0.0,1.0,1.0,4.0,,,4.0,1.0,1.0,1.0,,,,1.0
25%,10302060.0,210.0,,15.0,2023.0,2318201000.0,1.0,10.0,1.0,170.0,,,170.0,23.0,1.0,1.0,,,,6.0
50%,10960600.0,210.0,,25.0,2024.0,6600102000.0,1.0,17.0,1.0,170.0,,,170.0,66.0,182.0,1.0,,,,6.0
75%,11312240.0,210.0,,38.0,2024.0,7600103000.0,2.0,32.0,1.0,170.0,,,170.0,76.0,520.0,1.0,,,,6.0


Unnamed: 0,GRU_POB,nom_grupo,estrato,GP_DISCAPA,GP_DESPLAZ,GP_MIGRANT,GP_CARCELA,GP_GESTAN,sem_ges,GP_INDIGEN,GP_POBICFB,GP_MAD_COM,GP_DESMOVI,GP_PSIQUIA,GP_VIC_VIO,GP_OTROS,fuente,COD_PAIS_R,COD_DPTO_R,COD_MUN_R
count,0.0,195437,488585.0,501729.0,501729.0,501729.0,501729.0,501729.0,193726.0,501729.0,501729.0,501729.0,501729.0,501729.0,501729.0,501729.0,501729.0,501729.0,501729.0,501729.0
unique,,176,19.0,,,,,,103.0,,,,,,,,,,,
top,,...,1.0,,,,,,,,,,,,,,,,,
freq,,188221,116783.0,,,,,,191124.0,,,,,,,,,,,
mean,,,,1.998553,1.996199,1.98953,1.999534,1.99481,,1.999759,1.999587,1.999932,1.999853,1.999749,1.998304,1.023547,1.051167,170.742855,51.314377,268.888244
std,,,,0.038012,0.061534,0.101785,0.021591,0.071855,,0.015528,0.020308,0.008232,0.012144,0.015845,0.041149,0.151632,0.252816,22.689167,26.809708,294.187683
min,,,,1.0,1.0,1.0,1.0,1.0,,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,4.0,1.0,1.0
25%,,,,2.0,2.0,2.0,2.0,2.0,,2.0,2.0,2.0,2.0,2.0,2.0,1.0,1.0,170.0,23.0,1.0
50%,,,,2.0,2.0,2.0,2.0,2.0,,2.0,2.0,2.0,2.0,2.0,2.0,1.0,1.0,170.0,66.0,168.0
75%,,,,2.0,2.0,2.0,2.0,2.0,,2.0,2.0,2.0,2.0,2.0,2.0,1.0,1.0,170.0,76.0,520.0


Unnamed: 0,COD_DPTO_N,COD_MUN_N,FEC_CON,INI_SIN,TIP_CAS,PAC_HOS,FEC_HOS,CON_FIN,FEC_DEF,AJUSTE,FECHA_NTO,CER_DEF,CBMTE,FEC_ARC_XL,FEC_AJU,FM_FUERZA,FM_UNIDAD,FM_GRADO,confirmados,consecutive_origen
count,501729.0,501729.0,501728,501729,501729.0,501729.0,197946,501729.0,0.0,501729.0,501423,0.0,0.0,501729,501729,2991.0,2988.0,2988.0,501729.0,192102.0
unique,,,1120,1092,,,1120,,,,32369,,,1129,1182,,303.0,78.0,,
top,,,2024-06-11,2024-05-20,,,2024-05-23,,,,2012-09-13,,,2023-10-24,2023-10-24,,1.0,0.0,,
freq,,,1685,1563,,,485,,,,82,,,5897,6750,,1107.0,1725.0,,
mean,51.432752,51661.694758,,,2.423117,1.605472,,1.0,,1.763071,,,,,,3.406553,,,0.77322,53567.25754
std,26.758523,26758.206155,,,0.523996,0.48875,,0.0,,2.106282,,,,,,0.708201,,,0.418749,35320.703758
min,5.0,5001.0,,,2.0,1.0,,1.0,,0.0,,,,,,1.0,,,0.0,1.0
25%,23.0,23182.0,,,2.0,1.0,,1.0,,0.0,,,,,,3.0,,,1.0,24242.25
50%,66.0,66001.0,,,2.0,2.0,,1.0,,0.0,,,,,,3.0,,,1.0,48646.0
75%,76.0,76001.0,,,3.0,2.0,,1.0,,3.0,,,,,,4.0,,,1.0,79494.75


Unnamed: 0,va_sispro,Estado_final_de_caso,nom_est_f_caso,Nom_upgd,Pais_ocurrencia,Nombre_evento,Departamento_ocurrencia,Municipio_ocurrencia,Pais_residencia,Departamento_residencia,Municipio_residencia,Departamento_Notificacion,Municipio_notificacion
count,501729.0,501729.0,501729,498670,501729,501729,501729,501729,501729,501729,501727,501729,501729
unique,,,3,3571,45,1,33,970,49,34,1014,33,870
top,,,Confirmado por laboratorio,FUNDACION CLINICA INFANTIL CLUB NOEL,COLOMBIA,DENGUE,VALLE,CALI,COLOMBIA,VALLE,CALI,VALLE,CALI
freq,,,365207,6628,500760,501729,116309,51550,500974,116013,52362,117121,58203
mean,1.0,2.863867,,,,,,,,,,,
std,0.0,0.624133,,,,,,,,,,,
min,1.0,2.0,,,,,,,,,,,
25%,1.0,3.0,,,,,,,,,,,
50%,1.0,3.0,,,,,,,,,,,
75%,1.0,3.0,,,,,,,,,,,
