## Contexto del Dataset
Este dataset es originario del Sistema de Vigilancia de Salud Pública (SIVIGILA), que recopila y analiza datos sobre eventos que afectan la salud de la población colombiana como enfermedades (infecciosas, crónicas, etc.), factores de riesgo y otros sucesos de importancia en salud pública.

## Descripción del Problema
TODO: hacer descripción de la problematica

Para llevar acabo este caso de uso, se utilizará el conjunto de datos disponible en: https://portalsivigila.ins.gov.co/Paginas/Buscador.aspx

En el presente trabajo se pretende realizar un realizar un análisis exploratorio, limpieza, modelado y evaluación sobre el conjunto de datos epidemiológicos obtenidos del sistema SIVIGILA (Colombia) centrado en la patologia DENGUE en el periodo 2022-2024.

#### Objetivos específicos:
- Realizar análisis y pruebas con el dataset.
- Aplicar técnicas de procesamiento al conjunto de datos.
- Implementar modelos de aprendizaje de máquina.

### Importar librerias

In [1]:
# Esto hace que cada vez que ejecutes una celda, Jupyter verifique si algún módulo local cambió y lo recargue automáticamente.
%load_ext autoreload 
%autoreload 2

from ydata_profiling import ProfileReport
import dtale
import pandas as pd
from pathlib import Path
import sys

# Agregar el directorio raíz del proyecto al sys.path para permitir importaciones de utilidades realizadas
project_root = Path.cwd().parent
sys.path.insert(0, str(project_root))

# Importar la función directamente desde el paquete src para cargar los datos
from src import data_utils


### Carga Datos
En esta sección se realiza una conversión de los archivos descargados desde el portal del SIVIGILA, utilizando el módulo de utilidades.
Con la finalidad de acelerar el proceso posterior de cargado y lectura, dicha conversión se hará de formato .xlsx -> formato .parquet

In [None]:
# Convertir archivos Excel a Parquet
data_utils.convertir_excel_a_parquet()


Una vez realizada la conversión procedemos a cargar los datos en un diccionario usando el módulo de utilidades, de esta manera obtendremos los nombres de los archivos asociados a sus respectivos dataframes


In [2]:
# cargar datos .parquet
dict_df = data_utils.cargar_archivos_parquet()

Se cargaron 3 archivos Parquet desde C:\Users\edavi\OneDrive - Universidad del Magdalena\Universidad\8° Semestre\ia\ml-analyst-sivigila\data\processed
Nombres de los archivos cargados: ['Datos_2022_210', 'Datos_2023_210', 'Datos_2024_210']


Verificamos si tenemos algún problema de consistencias de columnas en el conjuntos de dataframes

In [3]:
df_ref, columnas_en_comun = data_utils.verificar_referencia_columnas(dict_df)
data_utils.verificar_tipo_columnas(dict_df, columnas_en_comun)

dtale.show(df_ref, name="DataFrame de Referencia")


El Archivo de referencia para las columnas es: 'Datos_2024_210'

Diferencias encontradas en el archivo'Datos_2022_210':
Columnas adicionales no presentes en el archivo de referencia:
    - consecutive_origen (tipo actual: int64)

Diferencias encontradas en el archivo'Datos_2023_210':
Columnas adicionales no presentes en el archivo de referencia:
    - consecutive_origen (tipo actual: int64)

Tipo de dato diferente en archivo 'Datos_2022_210', columna 'FM_UNIDAD': (esperado: object, actual: float64)
Tipo de dato diferente en archivo 'Datos_2022_210', columna 'estrato': (esperado: float64, actual: object)
Tipo de dato diferente en archivo 'Datos_2022_210', columna 'FM_GRADO': (esperado: object, actual: float64)
Tipo de dato diferente en archivo 'Datos_2022_210', columna 'sem_ges': (esperado: float64, actual: object)
Tipo de dato diferente en archivo 'Datos_2022_210', columna 'OCUPACION': (esperado: float64, actual: object)

Tipo de dato diferente en archivo 'Datos_2023_210', columna 'es



**TODO:** describir el siguiente paso al ver inconsistencias

Una vez solucionados los problemas de consistencia en las columnas en nuestro conjunto de datos se procede a unificar todos los archivos y
guardarlos en un unico archivo de extensión parquet que será el archivo con el que se trabajara durante todo el análisis

In [None]:
## Obtenemos data frames unificados apartir del conjuntos de datos y los guardamos en un unico archivo de extensión csv
df_full = data_utils.unir_df(dict_df)
data_utils.guardar_df(df_full, 'datos_full')

En esta sección se realiza la lectura del archivo parquet previamente generado, con el fin de disponer de los datos unificados para su posterior análisis.

In [None]:
df = pd.read_csv('../data/processed/datos_full.csv')

### Detalles del dataset

In [None]:
df.info()

El dataset consta de 501729 entradas y 72 columnas