## Contexto del Dataset
Este dataset es originario del Sistema de Vigilancia de Salud Pública (SIVIGILA), que recopila y analiza datos sobre eventos que afectan la salud de la población colombiana como enfermedades (infecciosas, crónicas, etc.), factores de riesgo y otros sucesos de importancia en salud pública.

## Descripción del Problema
TODO: hacer descripción de la problematica

Para llevar acabo este caso de uso, se utilizará el conjunto de datos disponible en: https://portalsivigila.ins.gov.co/Paginas/Buscador.aspx

En el presente trabajo se pretende realizar un realizar un análisis exploratorio, limpieza, modelado y evaluación sobre el conjunto de datos epidemiológicos obtenidos del sistema SIVIGILA (Colombia) centrado en la patologia DENGUE en el periodo 2022-2024.

#### Objetivos específicos:
- Realizar análisis y pruebas con el dataset.
- Aplicar técnicas de procesamiento al conjunto de datos.
- Implementar modelos de aprendizaje de máquina.

### Importar librerias

In [1]:
# Esto hace que cada vez que ejecutes una celda, Jupyter verifique si algún módulo local cambió y lo recargue automáticamente.
%load_ext autoreload 
%autoreload 2

import pandas as pd
from pathlib import Path
import sys

# Agregar el directorio raíz del proyecto al sys.path para permitir importaciones de utilidades realizadas
project_root = Path.cwd().parent
sys.path.insert(0, str(project_root))

# Importar la función directamente desde el paquete src para cargar los datos
from src import data_utils


### Carga Datos
En esta sección se realiza la carga de los archivos descargados desde el portal del SIVIGILA, utilizando el módulo de utilidades.

In [2]:
## cargamos los datos en un diccionario usando el módulo de utilidades, de esta manera tener los nombres de los archivos asociados a sus respectivos dataframes
dict_df = data_utils.cargar_archivos_excel()

Se cargaron 3 archivos Excel desde C:\Users\edavi\OneDrive - Universidad del Magdalena\Universidad\8° Semestre\ia\ml-analyst-sivigila\data\raw
Nombres de los archivos cargados: ['Datos_2022_210', 'Datos_2023_210', 'Datos_2024_210']


Verificamos si tenemos algún problema de consistencias de columnas en el conjuntos de dataframes

In [19]:
data_utils.verificar_referencia_columnas(dict_df)
data_utils.verificar_tipo_columnas(dict_df)

El archivo 'Datos_2022_210' no tiene las mismas columnas que el archivo de referencia 'Datos_2024_210'.
-Falta la columna: consecutive_origen de tipo int64
El archivo 'Datos_2023_210' no tiene las mismas columnas que el archivo de referencia 'Datos_2024_210'.
-Falta la columna: consecutive_origen de tipo int64

El archivo de referencia para las columnas es: Datos_2024_210
El archivo 'Datos_2022_210' tiene un tipo de dato diferente en la columna 'OCUPACION': object (esperado: float64)
El archivo 'Datos_2022_210' tiene un tipo de dato diferente en la columna 'estrato': object (esperado: float64)
El archivo 'Datos_2022_210' tiene un tipo de dato diferente en la columna 'sem_ges': object (esperado: float64)
El archivo 'Datos_2022_210' tiene un tipo de dato diferente en la columna 'FM_UNIDAD': float64 (esperado: object)
El archivo 'Datos_2022_210' tiene un tipo de dato diferente en la columna 'FM_GRADO': float64 (esperado: object)


KeyError: 'consecutive_origen'

In [14]:
dict_df.keys()
dict_df['Datos_2023_210']

Unnamed: 0,CONSECUTIVE,COD_EVE,FEC_NOT,SEMANA,ANO,COD_PRE,COD_SUB,EDAD,UNI_MED,nacionalidad,...,Nom_upgd,Pais_ocurrencia,Nombre_evento,Departamento_ocurrencia,Municipio_ocurrencia,Pais_residencia,Departamento_residencia,Municipio_residencia,Departamento_Notificacion,Municipio_notificacion
0,10096307,210,2023-12-11,48,2023,7600108077,1,23,1,170,...,CLINICA COLOMBIA,COLOMBIA,DENGUE,VALLE,CALI,COLOMBIA,VALLE,CALI,VALLE,CALI
1,10096341,210,2023-12-05,48,2023,7600109043,1,8,1,170,...,UNIDAD ATENCION PRIMARIA SANITAS TEQUENDAMA,COLOMBIA,DENGUE,VALLE,CALI,COLOMBIA,VALLE,CALI,VALLE,CALI
2,10096340,210,2023-12-05,48,2023,7600109043,1,13,1,170,...,UNIDAD ATENCION PRIMARIA SANITAS TEQUENDAMA,COLOMBIA,DENGUE,VALLE,CALI,COLOMBIA,VALLE,CALI,VALLE,CALI
3,10096329,210,2023-11-28,48,2023,7600109837,1,88,1,170,...,CLINICA DESA SAS CALI,COLOMBIA,DENGUE,VALLE,CALI,COLOMBIA,VALLE,CALI,VALLE,CALI
4,10096304,210,2023-12-21,48,2023,7600107049,9,43,1,170,...,VIVA 1A IPS CALLE 7,COLOMBIA,DENGUE,VALLE,CALI,COLOMBIA,VALLE,CALI,VALLE,CALI
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
126406,10180196,210,2023-10-24,42,2023,1307400031,1,47,1,170,...,ESE HOSPITAL JOSE RUDECINDO LOPEZ PARODI,COLOMBIA,DENGUE,BOLIVAR,BARRANCO DE LOBA,COLOMBIA,BOLIVAR,BARRANCO DE LOBA,BOLIVAR,BARRANCO DE LOBA
126407,10175755,210,2023-09-22,37,2023,5000102208,2,17,1,170,...,,COLOMBIA,DENGUE,META,VILLAVICENCIO,COLOMBIA,META,VILLAVICENCIO,META,VILLAVICENCIO
126408,10175789,210,2023-08-02,26,2023,7600101125,1,23,1,170,...,CLINICA NUESTRA SEÑORA DE LOS REMEDIOS,COLOMBIA,DENGUE,VALLE,PALMIRA,COLOMBIA,VALLE,PALMIRA,VALLE,CALI
126409,10175754,210,2023-09-13,37,2023,5000102208,2,4,1,170,...,,COLOMBIA,DENGUE,META,VILLAVICENCIO,COLOMBIA,META,VILLAVICENCIO,META,VILLAVICENCIO


In [7]:
dict_df['Datos_2024_210']

Unnamed: 0,CONSECUTIVE,COD_EVE,FEC_NOT,SEMANA,ANO,COD_PRE,COD_SUB,EDAD,UNI_MED,nacionalidad,...,Nom_upgd,Pais_ocurrencia,Nombre_evento,Departamento_ocurrencia,Municipio_ocurrencia,Pais_residencia,Departamento_residencia,Municipio_residencia,Departamento_Notificacion,Municipio_notificacion
0,10795018,210,2024-09-02,35,2024,7327000880,1,11,1,170,...,HOSPITAL SANTA ANA,COLOMBIA,DENGUE,TOLIMA,FALAN,COLOMBIA,TOLIMA,FALAN,TOLIMA,FALAN
1,10795636,210,2024-09-13,37,2024,6800170276,2,8,1,170,...,UNIDAD DE URGENCIAS BUCARAMANGA BOLARQUI,COLOMBIA,DENGUE,SANTANDER,BUCARAMANGA,COLOMBIA,SANTANDER,BUCARAMANGA,SANTANDER,BUCARAMANGA
2,10795673,210,2024-08-08,32,2024,6800170276,2,7,1,170,...,UNIDAD DE URGENCIAS BUCARAMANGA BOLARQUI,COLOMBIA,DENGUE,SANTANDER,BUCARAMANGA,COLOMBIA,SANTANDER,BUCARAMANGA,SANTANDER,BUCARAMANGA
3,10794970,210,2024-03-26,12,2024,6800104268,1,20,1,170,...,CLINICA DE URGENCIAS BUCARAMANGA SAS,COLOMBIA,DENGUE,SANTANDER,BUCARAMANGA,COLOMBIA,SANTANDER,BUCARAMANGA,SANTANDER,BUCARAMANGA
4,10794977,210,2024-05-25,20,2024,6800103671,1,19,1,170,...,FUNDACION AVANZAR FOS,COLOMBIA,DENGUE,SANTANDER,BUCARAMANGA,COLOMBIA,SANTANDER,BUCARAMANGA,SANTANDER,BUCARAMANGA
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
309622,11747636,210,2024-01-20,3,2024,1300100542,1,24,1,170,...,CLINICA MADRE BERNARDA COMUNIDAD DE HERMANAS F...,COLOMBIA,DENGUE,BOLIVAR,CARTAGENA,COLOMBIA,BOLIVAR,CARTAGENA,BOLIVAR,CARTAGENA
309623,11747515,210,2024-04-09,13,2024,7683404652,1,21,1,170,...,HOSPITAL DPTAL TOMAS URIBE URIBE,COLOMBIA,DENGUE,VALLE,TULUA,COLOMBIA,VALLE,TULUA,VALLE,TULUA
309624,10899536,210,2024-07-22,16,2024,6300100354,1,25,1,170,...,ESE HOSPITAL DEPTAL UNIVERSITARIO SAN JUAN DE ...,COLOMBIA,DENGUE,QUINDIO,ARMENIA,FRANCIA,EXTERIOR,EXTERIOR_FRANCIA,QUINDIO,ARMENIA
309625,11652745,210,2024-02-13,2,2024,7600103799,1,5,1,32,...,HOSPITAL UNIVERSITARIO DEL VALLE EVARISTO GARCIA,ARGENTINA,DENGUE,EXTERIOR,EXTERIOR_ARGENTINA,COLOMBIA,VALLE,ROLDANILLO,VALLE,CALI


Como no se evidencia ningún problema de consistencia se procede a unificar todos los archivos y
guardarlos en un unico archivo de extensión csv que será el archivo con el que se trabajara durante todo el análisis

In [None]:
## Obtenemos data frames unificados apartir del conjuntos de datos y los guardamos en un unico archivo de extensión csv
df_full = data_utils.unir_excels(dict_df)
data_utils.guardar_dataframe(df_full, 'datos_full')

En esta sección se realiza la lectura del archivo CSV previamente generado, con el fin de disponer de los datos unificados para su posterior análisis.

In [None]:
df = pd.read_csv('../data/processed/datos_full.csv')

### Detalles del dataset

In [None]:
df.info()

El dataset consta de 501729 entradas y 72 columnas

In [None]:
for i in range(0, df.shape[1], 10):
    display(df.head().iloc[:, i:i+10])