# Descripción del problema

## Contexto del dataset

Este dataset es recuperado del Sistema de Vigilancia de Salud Pública (SIVIGILA), una infraestructura nacional para la observación, análisis y reporte de eventos de salud que puedan afectar a la población. Su propósito principal es generar información confiable y oportuna para orientar la toma de decisiones, la planificación y la ejecución de políticas y acciones en salud pública, como la intervención ante brotes de enfermedades. 

El dataset recoge datos en un periodo de enero de 2022 hasta diciembre de 2024 sobre la enfermedad del *dengue* en Colombia. Se puede encontrar mediante el link: https://portalsivigila.ins.gov.co/Paginas/Buscador.aspx 

## Descripción del problema

El dengue se transmite a través de la picadura de un mosquito infectado. Es una enfermedad que afecta personas de todas las edades, con síntomas que varían entre una fiebre leve a una fiebre incapacitante, acompañado de dolor intenso de cabeza, dolor detrás de los ojos, dolor en músculos y articulaciones, y eritema. La enfermedad puede progresar a formas graves, caracterizada principalmente por choque, dificultad respiratoria y/o daño grave de órganos.

Dicho todo lo anterior, es presente trabajo abordara un problema de regresión, donde buscaremos predecir la cantidad de número de casos confirmados de dengue en Colombia para el año 2025.



## Dataset y preparación de datos

In [10]:
import pandas as pd
import numpy as np

df = pd.read_csv("dengue_2022_2024_cleaned2.csv", low_memory=False)
df.info()
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 501729 entries, 0 to 501728
Data columns (total 70 columns):
 #   Column                     Non-Null Count   Dtype  
---  ------                     --------------   -----  
 0   consecutive                501729 non-null  int64  
 1   cod_eve                    501729 non-null  int64  
 2   fec_not                    501729 non-null  object 
 3   semana                     501729 non-null  int64  
 4   ano                        501729 non-null  int64  
 5   cod_pre                    501729 non-null  int64  
 6   cod_sub                    501729 non-null  int64  
 7   edad                       501729 non-null  int64  
 8   uni_med                    501729 non-null  int64  
 9   nacionalidad               501729 non-null  int64  
 10  nombre_nacionalidad        501729 non-null  object 
 11  sexo                       501729 non-null  object 
 12  cod_pais_o                 501729 non-null  int64  
 13  cod_dpto_o                 50

Unnamed: 0,consecutive,cod_eve,fec_not,semana,ano,cod_pre,cod_sub,edad,uni_med,nacionalidad,...,pais_ocurrencia,nombre_evento,departamento_ocurrencia,municipio_ocurrencia,pais_residencia,departamento_residencia,municipio_residencia,departamento_notificacion,municipio_notificacion,año
0,8915475,210,2022-09-30,39,2022,8541000080,1,19,1,170,...,COLOMBIA,DENGUE,CASANARE,TAURAMENA,COLOMBIA,CASANARE,TAURAMENA,CASANARE,TAURAMENA,2022
1,8915476,210,2022-02-07,5,2022,8501000190,1,18,1,170,...,COLOMBIA,DENGUE,CASANARE,AGUAZUL,COLOMBIA,CASANARE,AGUAZUL,CASANARE,AGUAZUL,2022
2,8915477,210,2022-04-08,13,2022,8500100001,3,19,1,170,...,COLOMBIA,DENGUE,CASANARE,TAURAMENA,COLOMBIA,CASANARE,TAURAMENA,CASANARE,YOPAL,2022
3,8908033,210,2022-04-04,13,2022,8500100001,3,8,1,170,...,COLOMBIA,DENGUE,CASANARE,YOPAL,COLOMBIA,CASANARE,YOPAL,CASANARE,YOPAL,2022
4,8908034,210,2022-05-16,19,2022,5000600169,1,8,1,170,...,COLOMBIA,DENGUE,META,ACACIAS,COLOMBIA,META,ACACIAS,META,ACACIAS,2022


In [None]:
print(f"Número de registros (filas): {df.shape[0]}")
print(f"Número de columnas: {df.shape[1]}")
print(f"Dimensiones totales (filas, columnas): {df.shape}")

Como se observa, hay más de (resultado_columnas) columnas en el dataset y (resultado_registros) registros. Sin embargo, hay unas columnas redundantes como *nombre_evento*, *país_residencia* y otras más. Por otro lado, hay otras columnas cuya información no nos interesa realmente, tales como *cod_dpto_r*, *cod_mun_r* o *uni_med*, pues realmente no aportan valor al objetivo final del estudio. Finalmente, tenemos otras columnas que no logramos comprender qué significan, por lo que no podemos hacer análisis con ellas. Entre algunas están *cbmte*, *con_fin*, etc.

Por ello, procederemos a retirarlas de nuestro dataset y proseguiremos con la limpieza de datos.

In [None]:
def clean_irrelevant_columns(df, columns_to_drop):
    """
    Elimina columnas irrelevantes del DataFrame.
    
    Args:
        df (pd.DataFrame): DataFrame original
        columns_to_drop (list): Lista de nombres de columnas a eliminar
    
    Returns:
        pd.DataFrame: DataFrame sin las columnas irrelevantes
    """
    print("Borrando columnas irrelevantes...")
    df = df.drop(columns=[col for col in columns_to_drop if col in df.columns], errors="ignore")
    print("Construyendo csv reducido...")
    df.to_csv("dengue_2022_2024_reduced2.csv", index=False)
    print("Columnas finales:", df.shape[1])
    print("Archivo guardado: dengue_2022_2024_reduced2.csv")

df = pd.read_csv("dengue_2022_2024_cleaned2.csv", low_memory=False)

cols_to_drop = [
    "consecutive", "cod_eve", "cod_pre", "cod_sub", "cod_pais_o",
    "cod_ase", "fec_con", "fec_hos", "fec_def", "fecha_nto",
    "cer_def", "cbmte", "fec_arc_xl", "fec_aju", "fm_fuerza", "fm_unidad", "fm_grado",
    "consecutive_origen", "va_sispro", "ajuste", "fuente", "nombre_evento",
    "cod_pais_r", "cod_dpto_r", "cod_mun_r","uni_med", "nacionalidad", "pac_hos", "nombre_nacionalidad", 
    "gp_discapa", "gp_desplaz", "gp_migrant", "gp_carcela","gp_indigen", "gp_pobicfb", "gp_mad_com", "gp_desmovi",
    "gp_psiquia", "gp_vic_vio", "gp_otros", "nom_grupo", "pais_ocurrencia", "con_fin", "año", "pais_residencia", 
    "departamento_residencia", "municipio_residencia", "cod_dpto_n", "cod_mun_n", "municipio_notificacion", 
    "departamento_notificacion", "ocupacion", "area"
    ]
    
clean_irrelevant_columns(df, cols_to_drop)

Borrando columnas irrelevantes...
Construyendo csv reducido...
Columnas finales: 20
Archivo guardado: dengue_2022_2024_reduced2.csv


In [9]:
df = pd.read_csv("dengue_2022_2024_reduced2.csv", low_memory=False)
df.info()
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 501729 entries, 0 to 501728
Data columns (total 20 columns):
 #   Column                   Non-Null Count   Dtype 
---  ------                   --------------   ----- 
 0   fec_not                  501729 non-null  object
 1   semana                   501729 non-null  int64 
 2   ano                      501729 non-null  int64 
 3   edad                     501729 non-null  int64 
 4   sexo                     501729 non-null  object
 5   cod_dpto_o               501729 non-null  int64 
 6   cod_mun_o                501729 non-null  int64 
 7   tip_ss                   501729 non-null  object
 8   per_etn                  501729 non-null  int64 
 9   estrato                  488585 non-null  object
 10  gp_gestan                501729 non-null  int64 
 11  sem_ges                  193726 non-null  object
 12  ini_sin                  501729 non-null  object
 13  tip_cas                  501729 non-null  int64 
 14  confirmados         

Unnamed: 0,fec_not,semana,ano,edad,sexo,cod_dpto_o,cod_mun_o,tip_ss,per_etn,estrato,gp_gestan,sem_ges,ini_sin,tip_cas,confirmados,estado_final_de_caso,nom_est_f_caso,nom_upgd,departamento_ocurrencia,municipio_ocurrencia
0,2022-09-30,39,2022,19,F,85,410,S,6,2,2,,2022-09-27,2,0,2,Probable,ESE HOSPITAL LOCAL DE TAURAMENA,CASANARE,TAURAMENA
1,2022-02-07,5,2022,18,F,85,10,S,6,1,2,,2022-02-04,2,0,2,Probable,HOSPITAL DE AGUAZUL JUAN HERNANDO URREGO ESE,CASANARE,AGUAZUL
2,2022-04-08,13,2022,19,F,85,410,S,6,1,2,,2022-04-01,2,1,3,Confirmado por laboratorio,HOSPITAL DE YOPAL ESE NUEVA SEDE,CASANARE,TAURAMENA
3,2022-04-04,13,2022,8,M,85,1,C,6,2,2,,2022-03-31,2,1,3,Confirmado por laboratorio,HOSPITAL DE YOPAL ESE NUEVA SEDE,CASANARE,YOPAL
4,2022-05-16,19,2022,8,M,50,6,S,6,2,2,,2022-05-12,2,0,2,Probable,HOSPITAL MUNICIPAL DE ACACIAS,META,ACACIAS


Ahora, vamos a ver los datos faltantes para cada una de nuestras variables predictoras. Para ello, usaremos la función *isnull()* de pandas

In [3]:
df = pd.read_csv("dengue_2022_2024_reduced2.csv", low_memory=False)
print(df.isnull().sum())

fec_not                         0
semana                          0
ano                             0
edad                            0
sexo                            0
cod_dpto_o                      0
cod_mun_o                       0
area                            0
tip_ss                          0
per_etn                         0
estrato                     21661
gp_gestan                       0
sem_ges                    499127
ini_sin                         0
tip_cas                         0
confirmados                     0
estado_final_de_caso            0
nom_est_f_caso                  0
nom_upgd                     3059
departamento_ocurrencia         0
municipio_ocurrencia            0
dtype: int64


Como se puede ver en los resultados, la columna de *sem_ges* (semanas de gestación) tiene muy pocos datos; la mayoría de los registros están vacíos. De hecho, veamos cual es el porcentaje de datos faltantes:

In [4]:
df = pd.read_csv("dengue_2022_2024_reduced2.csv", low_memory=False)
print(round((df.isnull().sum() / df.shape[0]) * 100, 2))

fec_not                     0.00
semana                      0.00
ano                         0.00
edad                        0.00
sexo                        0.00
cod_dpto_o                  0.00
cod_mun_o                   0.00
area                        0.00
tip_ss                      0.00
per_etn                     0.00
estrato                     4.32
gp_gestan                   0.00
sem_ges                    99.48
ini_sin                     0.00
tip_cas                     0.00
confirmados                 0.00
estado_final_de_caso        0.00
nom_est_f_caso              0.00
nom_upgd                    0.61
departamento_ocurrencia     0.00
municipio_ocurrencia        0.00
dtype: float64


Podemos observar que 99.48% de los datos en la columna de *sem_ges* están vacíos, lo que nos indica que hay muy pocos registros de mujeres en proceso de gestación dentro de los datos, lo que representa un problema a la hora de entrenar nuestro modelo. Por esta razón, eliminaremos la columna *sem_ges* del dataset.

Por otro lado, los datos faltantes de *estrato* (4,32%) se rellenarán con el promedio y para los datos faltantes de *nom_upgd* (0.61%) se rellenarán con la moda.

In [None]:
df = pd.read_csv("dengue_2022_2024_reduced2.csv", low_memory=False)
df.drop(columns=["sem_ges"], inplace=True)
df['nom_upgd'] = df['nom_upgd'].fillna(df['nom_upgd'].mode()[0])

# Forzar conversión a numérico debido a algunos problemas con la columna
df['estrato'] = pd.to_numeric(df['estrato'], errors='coerce')
promedio_estrato = round(df['estrato'].mean())
df['estrato'] = df['estrato'].fillna(promedio_estrato)

df.to_csv("dengue_2022_2024_cleaned.csv", index=False, encoding="utf-8")

Entonces tenemos como resultado una vez rellenando los datos faltantes:

In [8]:
df = pd.read_csv("dengue_2022_2024_cleaned.csv", low_memory=False)
df.info()
print(round((df.isnull().sum() / df.shape[0]) * 100, 2))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 501729 entries, 0 to 501728
Data columns (total 19 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   fec_not                  501729 non-null  object 
 1   semana                   501729 non-null  int64  
 2   ano                      501729 non-null  int64  
 3   edad                     501729 non-null  int64  
 4   sexo                     501729 non-null  object 
 5   cod_dpto_o               501729 non-null  int64  
 6   cod_mun_o                501729 non-null  int64  
 7   tip_ss                   501729 non-null  object 
 8   per_etn                  501729 non-null  int64  
 9   estrato                  501729 non-null  float64
 10  gp_gestan                501729 non-null  int64  
 11  ini_sin                  501729 non-null  object 
 12  tip_cas                  501729 non-null  int64  
 13  confirmados              501729 non-null  int64  
 14  esta