# Análisis Comparativo de Modelos de Machine Learning para la Predicción de Diabetes

## 1. Introducción

Este documento presenta un análisis exhaustivo de los diferentes modelos de aprendizaje automático entrenados para la predicción de diabetes. Se evaluaron diversos algoritmos para identificar el más adecuado en términos de precisión, sensibilidad y capacidad de discriminación.

## 2. Resumen de Modelos Evaluados

Se entrenaron y evaluaron siete modelos diferentes:

| Modelo                       | Accuracy | AUC       | Precisión | Recall   | F1-Score | Características                                    |
| ---------------------------- | -------- | --------- | --------- | -------- | -------- | ------------------------------------------------- |
| KNN (k=19)                   | 0.7346   | 0.806     | 0.72      | 0.77     | 0.73     | Buen equilibrio, fácil interpretación             |
| Regresión Logística          | 0.7532   | 0.829     | 0.75      | 0.75     | 0.75     | Alta estabilidad y buen rendimiento               |
| Árbol de Decisión (base)     | 0.6571   | 0.657     | 0.66      | 0.65     | 0.66     | Alta interpretabilidad pero bajo rendimiento      |
| Árbol de Decisión (opt.)     | 0.7381   | 0.801     | 0.71      | 0.79     | 0.73     | Mejor después de optimización de hiperparámetros  |
| Random Forest (base)         | 0.7376   | 0.811     | 0.74      | 0.74     | 0.74     | Robusto y resistente al sobreajuste              |
| Random Forest (opt.)         | 0.7506   | 0.825     | 0.75      | 0.76     | 0.75     | Mejora después de ajuste de hiperparámetros       |
| **XGBoost (base)**           | 0.7555   | 0.8302    | 0.7370    | 0.7971   | 0.7659   | Mejor rendimiento general                         |
| **XGBoost (opt. umbral 0.40)**| 0.7436   | 0.8275    | 0.6945    | **0.8728** | **0.7735** | Maximiza recall manteniendo buen F1-score     |

## 3. Análisis del Modelo XGBoost

### 3.1 Configuración Óptima

El modelo XGBoost optimizado presenta los siguientes hiperparámetros:
- **n_estimators**: 100 (número de árboles)
- **learning_rate**: 0.2 (tasa de aprendizaje)
- **max_depth**: 3 (profundidad máxima del árbol)
- **umbral de probabilidad**: 0.40 (ajustado para maximizar F1-score)

### 3.2 Características Más Relevantes

El análisis de importancia de características identificó las variables más influyentes:

1. **HighBP** (40.79%): Presión arterial alta
2. **GenHlth_2** (6.01%): Salud general 
3. **DiffWalk** (5.08%): Dificultad para caminar
4. **BMI**: Índice de masa corporal
5. **Age_13**: Grupo de edad avanzada

Esto sugiere que los factores cardiovasculares y metabólicos son los principales indicadores predictivos de diabetes, lo que coincide con la literatura médica sobre factores de riesgo.

### 3.3 Impacto del Ajuste de Umbral

La modificación del umbral de decisión de 0.50 a 0.40 produjo:

- **Incremento significativo en Recall**: De 0.7971 a 0.8728 (+7.57%)
- **Reducción en Precisión**: De 0.7370 a 0.6945 (-4.25%)
- **Mejora en F1-Score**: De 0.7659 a 0.7735 (+0.76%)

Esta configuración prioriza la identificación de casos positivos (personas con diabetes), minimizando los falsos negativos, lo cual es crítico en aplicaciones médicas donde pasar por alto un caso puede tener consecuencias graves.

### 3.4 Matriz de Confusión del Modelo Final

Con el umbral optimizado a 0.40:

| | **Predicción: No Diabetes** | **Predicción: Diabetes** |
|----------------------|--------------------------|------------------------|
| **Real: No Diabetes** | 3891 (VN) | 2451 (FP) |
| **Real: Diabetes** | 812 (FN) | 5571 (VP) |

- **Verdaderos Positivos (VP)**: 5571 casos de diabetes correctamente identificados
- **Falsos Negativos (FN)**: 812 casos de diabetes no detectados
- **Falsos Positivos (FP)**: 2451 personas incorrectamente clasificadas con diabetes
- **Verdaderos Negativos (VN)**: 3891 personas sin diabetes correctamente clasificadas

## 4. Curva ROC y Capacidad Discriminativa

El modelo XGBoost optimizado logra un AUC de 0.8275, indicando una excelente capacidad para discriminar entre personas con y sin diabetes. La curva ROC muestra una separación significativa de la diagonal (clasificación aleatoria), confirmando la robustez del modelo.

## 5. Proceso de Selección de Características

Se aplicó un umbral de importancia de 0.01 para seleccionar características relevantes, lo que permitió:

1. Reducir la dimensionalidad del conjunto de datos
2. Mantener un rendimiento similar con menos variables
3. Disminuir el riesgo de sobreajuste
4. Mejorar la interpretabilidad del modelo

La selección de características mostró que se puede mantener la capacidad predictiva (AUC 0.8267 vs 0.8302 original) utilizando menos variables, lo que optimiza la eficiencia computacional.

## 6. Comparación con Otros Algoritmos

En comparación con los demás modelos:

- **XGBoost vs. Regresión Logística**: XGBoost muestra un recall significativamente superior (0.87 vs 0.79) y ligeramente mejor F1-score.
- **XGBoost vs. Random Forest**: Ambos tienen AUC similar, pero XGBoost logra mejor recall y F1-score.
- **XGBoost vs. KNN**: XGBoost supera a KNN en todas las métricas, especialmente en recall.
- **XGBoost vs. Árbol de Decisión**: Mejora sustancial en todas las métricas, especialmente en AUC (+0.17).

## 7. Conclusiones y Recomendaciones

### 7.1 Modelo Recomendado

**XGBoost con umbral ajustado a 0.40** es el modelo óptimo para implementar en la aplicación web debido a:

1. **Máximo recall (0.8728)**: Identifica el 87.28% de los casos de diabetes, minimizando el riesgo de pasar por alto casos positivos.
2. **Mejor F1-Score global (0.7735)**: Logra el mejor balance entre precisión y recall.
3. **Alto AUC (0.8275)**: Excelente capacidad discriminativa.
4. **Robustez**: El algoritmo es menos propenso al sobreajuste que un árbol de decisión simple.

### 7.2 Consideraciones para la Implementación Web

1. **Preprocesamiento**: Incorporar las transformaciones aplicadas durante el entrenamiento:
   - Manejo de valores atípicos en BMI
   - Escalado de variables numéricas
   - Codificación adecuada de variables categóricas

2. **Umbral de clasificación**: Configurar el umbral de probabilidad en 0.40 para favorecer la detección de casos positivos.

3. **Interpretabilidad**: Incluir la explicación de las variables más importantes en la interfaz de usuario para contextualizar los resultados.

4. **Presentación de resultados**: Mostrar tanto la predicción final como la probabilidad estimada para una evaluación más completa.

5. **Persistencia del modelo**: Utilizar el archivo modelo_xgboost_optimizado.pkl previamente guardado para implementar las predicciones.

### 7.3 Trabajo Futuro

1. **Validación externa**: Evaluar el modelo con datos de otras poblaciones para confirmar su generalización.

2. **Implementación de explicabilidad**: Incorporar técnicas como SHAP para explicar predicciones individuales.

3. **Monitorización continua**: Implementar un sistema de seguimiento del rendimiento del modelo en producción.

4. **Reentrenamiento periódico**: Establecer un proceso para actualizar el modelo con nuevos datos.

5. **Adaptación de umbral**: Permitir ajustes del umbral según necesidades específicas (mayor precisión o mayor recall).

Este análisis exhaustivo demuestra que el modelo XGBoost con umbral optimizado ofrece la mejor combinación de rendimiento e interpretabilidad para la implementación en una aplicación web de predicción de diabetes.