<a href="https://colab.research.google.com/github/bonillahermes/Data_Science_Projects/blob/main/Dengue_Amazonas_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Hermes Yate Bonilla
**Data Scientist**
---

**Contact:**
- **Email:** [bonillahermes@gmail.com](mailto:bonillahermes@gmail.com)
- **LinkedIn:** [linkedin.com/in/bonillahermes](https://www.linkedin.com/in/bonillahermes/)
- **GitHub:** [github.com/bonillahermes](https://github.com/bonillahermes)
- **Webpage:** [bonillahermes.com](https://bonillahermes.com/)
---

# FACTORES CLÍNICOS Y DEMOGRÁFICOS ASOCIADOS A DENGUE CON Y SIN SIGNOS DE ALARMA EN EL DEPARTAMENTO DE AMAZONAS 2020 - 2022.

## Abstract
Este estudio analizó los factores clínicos y demográficos asociados al dengue con y sin signos de alarma en el departamento de Amazonas, Colombia, durante los años 2020 a 2022. Utilizando un diseño transversal analítico, se examinaron 595 registros de casos de dengue reportados en el sistema de vigilancia en salud pública. Se analizaron variables como sexo, edad, área de ocurrencia, tipo de régimen de salud, pertenencia étnica y síntomas clínicos para determinar su relación con la clasificación final del dengue.

Las estadísticas descriptivas revelaron que la mayoría de los casos de dengue se reportaron en áreas rurales y en individuos no indígenas. La distribución de edades mostró una media de 38 años, con una ligera asimetría positiva. Los análisis de correlación y asociación indicaron que no había una relación significativa entre el sexo y la clasificación final del dengue, pero la pertenencia étnica sí mostró una asociación significativa, con los individuos no indígenas teniendo mayores probabilidades de presentar signos de alarma.

El modelo de regresión logística, ajustado mediante el método stepwise, incluyó las variables dolor abdominal, vómito, diarrea, hipotensión y caída de plaquetas. Aunque el modelo mostró una exactitud perfecta en la predicción de los casos de dengue, los coeficientes no fueron estadísticamente significativos. Esto sugiere que las condiciones clínicas usualmente asociadas con casos graves de dengue pueden haber sido subdiagnosticadas o subreportadas durante la pandemia de COVID-19, afectando los resultados.

## Metodología

El estudio se diseñó como un análisis transversal analítico para determinar los factores clínicos y demográficos asociados al dengue con y sin signos de alarma en el departamento de Amazonas durante los años 2020 a 2022. La población del estudio incluyó todos los casos de dengue reportados en el sistema de vigilancia en salud pública departamental del Amazonas, resultando en una muestra final de 595 registros de casos de dengue.

Para analizar las variables del estudio, se calcularon medidas de tendencia central y dispersión para las variables cuantitativas, y se generaron frecuencias y proporciones para las variables categóricas. Se utilizaron histogramas y boxplots para visualizar la distribución de la edad, así como diagramas de torta para las variables categóricas. Las asociaciones entre variables categóricas y la clasificación final del dengue se evaluaron mediante pruebas de Chi-cuadrado y el test exacto de Fisher. Además, se calculó la matriz de correlación utilizando el método de Spearman.

Se ajustó un modelo de regresión logística saturado y se aplicó el método stepwise para seleccionar las variables más significativas, obteniendo así el modelo final. Los coeficientes exponenciados del modelo final se interpretaron para entender las razones de probabilidades asociadas a cada variable predictora. La evaluación del modelo incluyó la generación de una matriz de confusión y el cálculo de métricas de desempeño como exactitud, sensibilidad, especificidad y el coeficiente Kappa.

Finalmente, se consideró el impacto de la pandemia de COVID-19 durante los años 2020 a 2022 en los sistemas de salud y el comportamiento de las enfermedades infecciosas, lo cual pudo haber influido en la atención y diagnóstico del dengue. Esta consideración fue crucial para interpretar los resultados del estudio y asegurar la validez de las conclusiones obtenidas.

## Preliminares

In [None]:
# Instalar paquetes necesarios
install.packages("glmnet")

In [None]:
install.packages("caret")

In [None]:
install.packages("psych")

In [None]:
install.packages("moments")

In [None]:
install.packages("knitr")
install.packages("kableExtra")

In [None]:
install.packages("Hmisc")
install.packages("corrplot")

In [None]:
# Cargar librerías
library(readxl)
library(dplyr)
library(ggplot2)
library(lubridate)
library(glmnet)
library(caret)
library(MASS)
library(psych)
library(moments)
library(knitr)
library(kableExtra)
library(Hmisc)
library(corrplot)
library(pROC)

### Cargar base

In [None]:
# Cargar los datos desde el archivo Excel
file_path <- "Base.xlsx"
data <- read_excel(file_path)

In [None]:
# Mostrar las primeras filas del dataset
head(data)

### Limpieza y tratamiento de Datos

In [None]:
# Verificar valores faltantes
missing_values <- sapply(data, function(x) sum(is.na(x)))
print(missing_values)

In [None]:
data <- na.omit(data)

In [None]:
# Convertir variables categóricas a factor
data <- data %>%
  mutate(
    año = as.factor(año),
    sexo_ = as.factor(sexo_),
    edad_ = as.numeric(edad_),
    tip_ss_ = as.factor(tip_ss_),
    area_ = as.factor(area_),
    per_etn_ = as.factor(per_etn_),
    cefalea = as.factor(cefalea),
    dolrretroo = as.factor(dolrretroo),
    malgias = as.factor(malgias),
    artralgia = as.factor(artralgia),
    erupcionr = as.factor(erupcionr),
    dolor_abdo = as.factor(dolor_abdo),
    vomito = as.factor(vomito),
    diarrea = as.factor(diarrea),
    somnolenci = as.factor(somnolenci),
    hipotensio = as.factor(hipotensio),
    hepatomeg = as.factor(hepatomeg),
    hem_mucosa = as.factor(hem_mucosa),
    aum_hemato = as.factor(aum_hemato),
    caida_plaq = as.factor(caida_plaq),
    clasfinal = as.factor(clasfinal),
    conducta = as.factor(conducta),
  )

In [None]:
# Verificar cambios
str(data)

## Estadísticos Descriptivos para la Variable Edad

In [None]:
# Calcular estadísticas descriptivas para la variable 'edad_'
edad_stats <- data$edad_

# Estadísticas básicas
summary_stats <- summary(edad_stats)
desviacion_estandar <- sd(edad_stats)
asimetria <- skewness(edad_stats)
curtosis <- kurtosis(edad_stats)
coef_var <- sd(edad_stats) / mean(edad_stats) * 100

# Combinar todas las estadísticas en un solo data frame
estadisticas_completas <- data.frame(
  Min = as.numeric(summary_stats["Min."]),
  Q1 = as.numeric(summary_stats["1st Qu."]),
  Median = as.numeric(summary_stats["Median"]),
  Mean = as.numeric(summary_stats["Mean"]),
  Q3 = as.numeric(summary_stats["3rd Qu."]),
  Max = as.numeric(summary_stats["Max."]),
  Std_Dev = desviacion_estandar,
  Skewness = asimetria,
  Kurtosis = curtosis,
  Coef_Var = coef_var
)

estadisticas_completas

In [None]:
# Histograma
histograma_edad <- ggplot(data, aes(x = edad_)) +
  geom_histogram(binwidth = 5, fill = "skyblue", color = "black", alpha = 0.7) +  # Ajusta el ancho de los bins según tus datos
  labs(title = "Distribución de Edades", x = "Edad", y = "Frecuencia") +
  theme_minimal()  # Tema limpio y minimalista

# Boxplot
boxplot_edad <- ggplot(data, aes(y = edad_)) +
  geom_boxplot(fill = "skyblue", color = "black") +
  labs(title = "Distribución de Edades (Boxplot)", y = "Edad") +
  theme_minimal()

# Mostrar los gráficos
print(histograma_edad)
print(boxplot_edad)

La población estudiada tiene una edad media de aproximadamente 38 años, con la mayoría de los individuos concentrados entre los 18 y 50 años. La mediana se sitúa en 36 años, lo que sugiere una distribución relativamente simétrica, aunque ligeramente sesgada hacia edades mayores, como lo indica la asimetría positiva de 0.828. La desviación estándar de 15.52 años y un coeficiente de variación del 40.53% indican una variabilidad moderada en las edades de los individuos.

El histograma y el boxplot confirman esta distribución, mostrando una mayor frecuencia de individuos jóvenes y una disminución gradual en las edades mayores a 50 años. El boxplot también identifica un outlier a los 97 años, reforzando la presencia de una cola derecha más larga en la distribución. Estos gráficos visualizan claramente la dispersión y los outliers en los datos de edad, proporcionando una comprensión detallada de la variabilidad en la muestra analizada.

In [None]:
data$clasfinal <- as.numeric(as.character(data$clasfinal))

# Agrupar por 'clasfinal' (ahora numérica) y calcular estadísticas descriptivas
estadisticas_por_grupo <- data %>%
  group_by(clasfinal) %>%
  summarise(
    Media = mean(edad_, na.rm = TRUE),
    Desviacion_Estandar = sd(edad_, na.rm = TRUE),
    Minimo = min(edad_, na.rm = TRUE),
    Maximo = max(edad_, na.rm = TRUE),
    Q1 = quantile(edad_, 0.25, na.rm = TRUE),
    Mediana = median(edad_, na.rm = TRUE),
    Q3 = quantile(edad_, 0.75, na.rm = TRUE),
    Asimetría = skewness(edad_, na.rm = TRUE),
    Curtosis = kurtosis(edad_, na.rm = TRUE),
    Coef_Variacion = (sd(edad_, na.rm = TRUE) / mean(edad_, na.rm = TRUE)) * 100
  ) %>%
  round(2)  # Redondear a 2 decimales

print(estadisticas_por_grupo)

In [None]:
# Convertir 'clasfinal' a factor (si aún no lo es)
data$clasfinal <- as.factor(data$clasfinal)

# Boxplot agrupado por 'clasfinal' (corregido)
boxplot_edad_por_grupo <- ggplot(data, aes(x = clasfinal, y = edad_, fill = clasfinal)) +
  geom_boxplot() +
  labs(title = "Distribución de Edades por Clase Final", x = "Clase Final", y = "Edad") +
  theme_minimal() +
  scale_fill_brewer(palette = "Pastel1")

# Mostrar el gráfico
print(boxplot_edad_por_grupo)

In [None]:
# Prueba de Shapiro-Wilk para normalidad
shapiro_test <- shapiro.test(data$edad_)
print(shapiro_test)

# Si p-valor de Shapiro-Wilk es significativo (p < 0.05), no hay normalidad
if (shapiro_test$p.value < 0.05) {
  cat("No se asume normalidad en la variable 'edad_'.\n")

  # Prueba de Kruskal-Wallis para comparar medianas
  kruskal_test <- kruskal.test(edad_ ~ clasfinal, data = data)
  print(kruskal_test)

  # Si p-valor de Kruskal-Wallis es significativo (p < 0.05), hay diferencias significativas entre las medianas
  if (kruskal_test$p.value < 0.05) {
    cat("Existen diferencias significativas entre las medianas de 'edad_' según la 'clasfinal'.\n")

    # Prueba post-hoc de Dunn para identificar qué grupos difieren (opcional)
    library(FSA)
    dunn_test <- dunnTest(edad_ ~ clasfinal, data = data, method = "bh")
    print(dunn_test)
  } else {
    cat("No hay diferencias significativas entre las medianas de 'edad_' según la 'clasfinal'.\n")
  }
} else {
  cat("Se asume normalidad en la variable 'edad_'.\n")
}

La comparación de la variable edad segregada por la clasificación final del dengue muestra que las medias son bastante similares: 38.1 años para los casos sin signos de alarma y 38.6 años para los casos con signos de alarma. La desviación estándar también es comparable entre ambos grupos (15.7 y 15.3, respectivamente), indicando una variabilidad similar. Los gráficos de boxplot refuerzan esta observación, mostrando distribuciones casi idénticas con medianas de 35 y 36 años, y rangos intercuartílicos que se superponen significativamente.

El test de normalidad de Shapiro-Wilk indica que la variable edad no sigue una distribución normal (p < 0.05). El test de Kruskal-Wallis no encontró diferencias significativas entre las medianas de la edad en función de la clasificación final del dengue (p = 0.5418). Estos resultados sugieren que la edad no es un factor diferenciador significativo entre los casos de dengue con y sin signos de alarma en esta muestra.

## Análisis Variables Categoricas

In [None]:
# Función para generar diagramas de torta
generar_diagrama_torta <- function(data, variable, variable_name) {
  # Crear un data frame con los conteos
  df <- data.frame(table(data[[variable]]))
  colnames(df) <- c("Category", "Count")

  # Calcular porcentajes
  df$Percentage <- round(df$Count / sum(df$Count) * 100, 1)
  df$Label <- paste(df$Category, "(", df$Percentage, "%)", sep = "")

  # Generar el diagrama de torta
  ggplot(df, aes(x = "", y = Count, fill = Category)) +
    geom_bar(stat = "identity", width = 1) +
    coord_polar(theta = "y") +
    labs(title = paste("Distribución de", variable_name), x = NULL, y = NULL) +
    theme_minimal() +
    theme(axis.text.x = element_blank()) +
    geom_text(aes(label = Label), position = position_stack(vjust = 0.5)) +
    theme(plot.title = element_text(hjust = 0.5))
}

# Generar diagramas de torta para las variables categóricas
generar_diagrama_torta(data, "sexo_", "Sexo")
generar_diagrama_torta(data, "tip_ss_", "Tipo de Régimen en Salud")
generar_diagrama_torta(data, "area_", "Área de Ocurrencia")
generar_diagrama_torta(data, "per_etn_", "Pertenencia Étnica")
generar_diagrama_torta(data, "conducta", "Conducta")
generar_diagrama_torta(data, "clasfinal", "Clasificación Final del Dengue")


Según los gráficos, la muestra presenta una ligera preponderancia de individuos del sexo femenino (codificado como 1) y una distribución relativamente equilibrada entre los diferentes tipos de régimen de salud y conductas tomadas. La mayor parte de los casos se registra en el área urbana (codificada como 1), y la mayoría de los individuos no pertenecen a la comunidad indígena (codificado como 1). En términos de la clasificación final del dengue, la mayoría de los casos son de dengue sin signos de alarma.

## Análisis de Asociación

In [None]:
# Función para realizar tabla cruzada y tests estadísticos
realizar_tests <- function(var1, var2, var1_name, var2_name) {
  # Verificar que las variables tengan la misma longitud
  if (length(var1) != length(var2)) {
    stop("Las variables deben tener la misma longitud")
  }

  # Tabla cruzada
  tabla_cruzada <- table(var1, var2)
  cat("\nTabla cruzada entre", var1_name, "y", var2_name, ":\n")
  print(tabla_cruzada)  # Mostrar la tabla de contingencia

  # Test de Chi-cuadrado
  resultado_chisq <- chisq.test(tabla_cruzada)
  cat("\nTest de Chi-cuadrado entre", var1_name, "y", var2_name, ":\n")
  print(resultado_chisq)  # Mostrar los resultados del test de Chi-cuadrado

  # Test exacto de Fisher
  resultado_fisher <- fisher.test(tabla_cruzada)
  cat("\nTest exacto de Fisher entre", var1_name, "y", var2_name, ":\n")
  print(resultado_fisher)  # Mostrar los resultados del test exacto de Fisher
}

# Variables
vars <- list(
  list(var1 = data$sexo_, var2 = data$clasfinal, var1_name = "sexo_", var2_name = "clasfinal"),
  list(var1 = data$tip_ss_, var2 = data$clasfinal, var1_name = "tip_ss_", var2_name = "clasfinal"),
  list(var1 = data$per_etn_, var2 = data$clasfinal, var1_name = "per_etn_", var2_name = "clasfinal"),
  list(var1 = data$area_, var2 = data$clasfinal, var1_name = "area_", var2_name = "clasfinal"),
  list(var1 = data$conducta, var2 = data$clasfinal, var1_name = "conducta", var2_name = "clasfinal")
)

# Aplicar la función a cada par de variables
for (pair in vars) {
  realizar_tests(pair$var1, pair$var2, pair$var1_name, pair$var2_name)
}



Los resultados del análisis indican que no existe una asociación significativa entre el sexo de los pacientes ni el tipo de régimen de salud con la clasificación final del dengue. Esto sugiere que estos factores no influyen en la gravedad del dengue en la muestra analizada. Por otro lado, la pertenencia étnica muestra una asociación significativa con la gravedad del dengue, donde los individuos indígenas tienen menos probabilidades de presentar dengue con signos de alarma en comparación con los no indígenas.

La ubicación geográfica también juega un papel importante; los casos en áreas rurales presentan una mayor probabilidad de ser graves en comparación con los casos en áreas urbanas. Esto destaca la necesidad de prestar atención especial a las áreas rurales en los esfuerzos de prevención y tratamiento del dengue. Además, hay una fuerte asociación entre la conducta tomada (tratamiento ambulatorio u hospitalario) y la gravedad del dengue, con los casos graves requiriendo hospitalización con mayor frecuencia.

En resumen, aunque el sexo y el régimen de salud no parecen influir en la gravedad del dengue, la pertenencia étnica y la ubicación geográfica sí lo hacen. Los individuos en áreas rurales y los no indígenas son más propensos a presentar casos graves de dengue. Estos hallazgos pueden guiar intervenciones específicas y la asignación de recursos para el control del dengue en el departamento de Amazonas.

## Análisis de Correlación

In [None]:
# Convertir las variables categóricas en factores
data <- data %>%
  mutate(
    sexo_ = as.numeric(as.factor(sexo_)),
    tip_ss_ = as.numeric(as.factor(tip_ss_)),
    area_ = as.numeric(as.factor(area_)),
    per_etn_ = as.numeric(as.factor(per_etn_)),
    conducta = as.numeric(as.factor(conducta)),
    clasfinal = as.numeric(as.factor(clasfinal))
  )


In [None]:
# Seleccionar las variables categóricas convertidas
categorical_vars <- data %>%
  dplyr::select(sexo_, tip_ss_, area_, per_etn_, conducta, clasfinal)

# Calcular la matriz de correlación y los p-valores utilizando el método de Spearman
cor_results <- rcorr(as.matrix(categorical_vars), type = "spearman")

# Extraer la matriz de correlación y la matriz de p-valores
cor_matrix <- cor_results$r
p_values_matrix <- cor_results$P

# Verificar que las dimensiones coincidan
print(dim(cor_matrix))
print(dim(p_values_matrix))

# Mostrar la matriz de correlación y la matriz de p-valores
print("Matriz de Correlación:")
print(cor_matrix)

print("Matriz de P-valores:")
print(p_values_matrix)

La matriz de correlación de Spearman proporciona coeficientes que indican la fuerza y dirección de la relación monotónica entre dos variables categóricas. Los valores pueden variar de -1 a 1, donde:

1 indica una correlación positiva perfecta.
-1 indica una correlación negativa perfecta.
0 indica que no hay correlación monotónica.
Aquí están los puntos destacados del análisis:

1. sexo_ y las demás variables:

- tip_ss_: Correlación muy baja y negativa (-0.015), lo que indica prácticamente ninguna relación entre el sexo y el tipo de régimen en salud.
- area_: Correlación muy baja y positiva (0.007), indicando una relación insignificante entre el sexo y el área de ocurrencia.
- per_etn_: Correlación muy baja y negativa (-0.031), indicando una relación insignificante entre el sexo y la pertenencia étnica.
- conducta: Correlación muy baja y positiva (0.027), indicando una relación insignificante entre el sexo y la conducta tomada.
- clasfinal: Correlación muy baja y positiva (0.039), indicando una relación insignificante entre el sexo y la clasificación final del dengue.

2. tip_ss_ y las demás variables:

- area_: Correlación baja y positiva (0.171), indicando una relación débil entre el tipo de régimen en salud y el área de ocurrencia.
- per_etn_: Correlación moderada y negativa (-0.339), lo que sugiere una relación inversa moderada entre el tipo de régimen en salud y la pertenencia étnica.
- conducta: Correlación muy baja y negativa (-0.009), indicando prácticamente ninguna relación entre el tipo de régimen en salud y la conducta tomada.
- clasfinal: Correlación muy baja y positiva (0.012), indicando una relación insignificante entre el tipo de régimen en salud y la clasificación final del dengue.
3. area_ y las demás variables:

- per_etn_: Correlación moderada y negativa (-0.297), lo que sugiere una relación inversa moderada entre el área de ocurrencia y la pertenencia étnica.
- conducta: Correlación baja y positiva (0.100), indicando una relación débil entre el área de ocurrencia y la conducta tomada.
- clasfinal: Correlación baja y positiva (0.160), indicando una relación débil entre el área de ocurrencia y la clasificación final del dengue.

4. per_etn_ y las demás variables:

- conducta: Correlación muy baja y negativa (-0.069), indicando una relación insignificante entre la pertenencia étnica y la conducta tomada.
- clasfinal: Correlación baja y negativa (-0.093), indicando una relación débil e inversa entre la pertenencia étnica y la clasificación final del dengue.

5. conducta y clasfinal:

- conducta y clasfinal: Correlación muy alta y positiva (0.872), lo que sugiere una relación fuerte entre la conducta tomada y la clasificación final del dengue. Este alto valor indica que la conducta tomada (tratamiento) está muy asociada con la clasificación final del dengue.

**Observaciones**:

- **Relación Fuerte**: La relación más destacada es entre la conducta tomada y la clasificación final del dengue, lo que sugiere que las decisiones de tratamiento están muy alineadas con la gravedad del caso (con o sin signos de alarma).
- **Relaciones Moderadas**: Hay relaciones moderadas entre el tipo de régimen en salud y la pertenencia étnica, así como entre el área de ocurrencia y la pertenencia étnica.
- **Relaciones Débiles o Insignificantes**: La mayoría de las otras correlaciones son muy bajas, lo que indica relaciones débiles o insignificantes entre las variables categóricas analizadas.
- Las relaciones significativas sugieren áreas donde puede haber una asociación importante. Por ejemplo, la fuerte relación entre la conducta tomada y la clasificación final del dengue (p < 0.05) indica que las decisiones de tratamiento están muy alineadas con la gravedad del caso.
- La ausencia de relaciones significativas en algunos casos puede indicar que esos factores no influyen de manera importante en las variables de interés en este contexto específico.

In [None]:
# Visualizar la matriz de correlación
corrplot(cor_matrix, method = "number", type = "lower")

## Modelo de Regresión Logistica

El modelo de regresión logística es una técnica estadística utilizada para modelar la probabilidad de un resultado binario en función de una o más variables predictoras. En este contexto, el resultado binario es la clasificación final del dengue (con o sin signos de alarma), y las variables predictoras incluyen diversas características demográficas y clínicas. La regresión logística estima la probabilidad de que el resultado sea 1 (por ejemplo, dengue con signos de alarma) dado un conjunto de variables independientes.

El modelo se basa en la función logística, que se utiliza para transformar una combinación lineal de las variables predictoras en una probabilidad que varía entre 0 y 1.


### **Modelo Saturado**
A continuación se muestra el modelo saturado de regresión logística, es decir, el modelo que incluye todas las variables disponibles. Los coeficientes estimados y sus errores estándar se presentan para cada variable. Aquí están algunos puntos clave:

- Interacción y significancia: Los coeficientes indican la dirección y magnitud del efecto de cada variable en la probabilidad del resultado. Sin embargo, en este modelo saturado, ninguno de los coeficientes es significativo (p > 0.05), lo que sugiere que muchas de las variables no tienen un efecto estadísticamente significativo cuando se consideran todas juntas.
- Convergencia: Las advertencias indican que el algoritmo de ajuste no ha convergido y que hay problemas numéricos con las probabilidades ajustadas. Esto puede ser indicativo de multicolinealidad o de datos insuficientes para algunas combinaciones de variables.
- Dispersión de parámetros: El parámetro de dispersión para la familia binomial se toma como 1, lo cual es estándar en regresiones logísticas.


In [None]:
# Análisis de regresión logística para factores asociados al dengue con signos de alarma
model <- glm(clasfinal ~ ., data=data, family=binomial)
summary(model)

### Modelo Final (Stepwise)
El método stepwise (paso a paso) es una técnica de selección de variables que busca identificar el subconjunto óptimo de variables predictoras que explican mejor la variabilidad en el resultado. Este método puede ser hacia adelante, hacia atrás o una combinación de ambos. Utilizando el criterio de información de Akaike (AIC), el proceso stepwise añade o elimina variables iterativamente para encontrar el modelo más parsimonioso que mantenga un buen ajuste.

Esperando a que me proporciones el modelo final utilizando stepwise para continuar con el análisis.

In [None]:
# Crear el modelo de regresión logística completo
full_model <- glm(clasfinal ~ ., data=data, family=binomial)

# Aplicar el método stepwise
stepwise_model <- stepAIC(full_model, direction = "both")

# Resumen del modelo seleccionado
summary(stepwise_model)

En el proceso stepwise, se seleccionaron las variables más significativas para explicar la variabilidad en la clasificación final del dengue. El modelo final incluye las siguientes variables: dolor abdominal, vómito, diarrea, hipotensión y caída de plaquetas. Los resultados del modelo final son los siguientes:

Intercepción: 223.87, con un error estándar de 99936.64, lo que no es significativo (p > 0.05).
dolor_abdo1: Coeficiente de -49.93 con un error estándar de 22783.27, no significativo (p > 0.05).
vomito1: Coeficiente de -49.06 con un error estándar de 24483.19, no significativo (p > 0.05).
diarrea1: Coeficiente de -48.94 con un error estándar de 26101.50, no significativo (p > 0.05).
hipotensio1: Coeficiente de -50.88 con un error estándar de 76080.97, no significativo (p > 0.05).
caida_plaq1: Coeficiente de -50.69 con un error estándar de 28910.94, no significativo (p > 0.05).
El valor AIC del modelo es 12, lo que indica un buen ajuste relativo. Sin embargo, ninguno de los coeficientes resultó ser estadísticamente significativo, lo que sugiere que estas variables, al menos individualmente y en el contexto de este modelo, no tienen un efecto significativo en la clasificación final del dengue

In [None]:
# Predicciones con el modelo final
pred <- predict(stepwise_model, type="response")

# Convertir predicciones a factores binarios
pred_class <- as.factor(ifelse(pred > 0.5, 1, 0))

# Evaluar la matriz de confusión
confusionMatrix(pred_class, data$clasfinal)


El modelo de regresión logística final, tras el proceso stepwise, incluye las variables dolor abdominal, vómito, diarrea, hipotensión y caída de plaquetas. Aunque individualmente ninguna de estas variables resultó ser estadísticamente significativa, el modelo logró una exactitud perfecta del 100% en la predicción de los casos de dengue con y sin signos de alarma. Todas las métricas de desempeño, incluyendo sensibilidad, especificidad, y valores predictivos positivos y negativos, también fueron del 100%, lo que indica una perfecta concordancia entre las predicciones del modelo y los valores reales.

Sin embargo, estos resultados impecables sugieren la posibilidad de sobreajuste (overfitting), especialmente si el conjunto de datos de validación es pequeño o no representativo. A pesar del alto desempeño del modelo según las métricas presentadas, la falta de significancia estadística en los coeficientes y el posible sobreajuste recomiendan una validación adicional y la consideración de más datos para confirmar estos hallazgos.

In [None]:
# Crear la curva ROC
roc_curve <- roc(data$clasfinal, pred)

# Calcular el AUC
auc(roc_curve)

# Graficar la curva ROC
plot.roc(roc_curve, main="Curva ROC")

In [None]:
# Interpretar coeficientes del modelo de regresión
exp(coef(stepwise_model))

Los coeficientes exponenciados del modelo de regresión logística indican que las variables dolor abdominal, vómito, diarrea, hipotensión y caída de plaquetas están asociadas con una fuerte disminución en las probabilidades de tener dengue con signos de alarma. Por ejemplo, la razón de probabilidades para el dolor abdominal es $2.067\times 10^{-22} $, lo que sugiere que esta condición reduce drásticamente las probabilidades de tener signos de alarma.

Sin embargo, es crucial considerar que durante los años 2020, 2021 y 2022, la pandemia de COVID-19 impactó significativamente los sistemas de salud y el comportamiento de las enfermedades infecciosas. La pandemia pudo haber influido en la atención y diagnóstico del dengue, así como en el comportamiento de los pacientes al buscar tratamiento. Esto podría explicar por qué condiciones usualmente asociadas con casos graves de dengue (como vómito, diarrea, hipotensión y caída de plaquetas) aparecen con razones de probabilidades extremadamente bajas, sugiriendo que estos síntomas fueron menos reportados o menos diagnosticados como dengue con signos de alarma durante la pandemia.

# Conclusiones

El estudio determinó que la prevalencia de dengue sin signos de alarma en el departamento de Amazonas durante los años 2020 a 2022 fue del 58.9%, mientras que la prevalencia de dengue con signos de alarma fue del 41.1%. Esto indica que la mayoría de los casos reportados fueron de dengue sin signos de alarma, pero una proporción significativa presentó signos de alarma, lo que subraya la necesidad de un manejo clínico adecuado.

En cuanto a los factores demográficos y clínicos, se encontró que la distribución por sexo era ligeramente mayor en mujeres (sexo codificado como 1). La mayoría de los casos se reportaron en áreas rurales (área codificada como 0), y la pertenencia étnica mostró una mayor representación del grupo no indígena. La distribución de edades indicó una media de 38 años, con una ligera asimetría positiva, sugiriendo la presencia de individuos de mayor edad en la muestra.

Las correlaciones y asociaciones revelaron que no había una relación significativa entre el sexo y la clasificación final del dengue. Sin embargo, la pertenencia étnica sí mostró una asociación significativa, con los individuos no indígenas teniendo mayores probabilidades de presentar signos de alarma. Los resultados del análisis de regresión logística indicaron que síntomas clínicos como dolor abdominal, vómito, diarrea, hipotensión y caída de plaquetas estaban asociados con una fuerte disminución en las probabilidades de tener dengue con signos de alarma, aunque estos resultados deben interpretarse con cautela.

Finalmente, la pandemia de COVID-19 durante los años analizados pudo haber influido en la dinámica de reporte y diagnóstico del dengue, afectando los resultados del estudio. Aunque el modelo de regresión logística mostró una exactitud perfecta, la falta de significancia estadística en los coeficientes y el posible sobreajuste sugieren la necesidad de una validación adicional y posiblemente más datos para confirmar estos hallazgos. Los resultados proporcionan una base importante para futuras investigaciones y para la planificación de intervenciones de salud pública en el departamento de Amazonas.