# Resultados de Modelado y Comparación de Algoritmos

En esta sección se presentan los resultados obtenidos a partir del entrenamiento y evaluación de distintos modelos de clasificación supervisada, aplicados al dataset final preparado (`data_set_base`).  
El objetivo del modelado es **predecir el incumplimiento de pago de un cliente (`TARGET = 1`)**, considerando un escenario altamente desbalanceado, donde aproximadamente un 8% de los registros corresponden a clientes morosos.

Para la evaluación se utilizaron las siguientes métricas:

- **Precision (clase 1)**: proporción de clientes clasificados como morosos que efectivamente lo son.
- **Recall (clase 1)**: capacidad del modelo para detectar clientes morosos.
- **F1-score (clase 1)**: equilibrio entre precisión y recall.
- **Accuracy**: proporción total de predicciones correctas.
- **ROC AUC**: capacidad global del modelo para discriminar entre clientes morosos y no morosos, independiente del umbral.

Dado el contexto de riesgo crediticio, se prioriza **Recall y ROC AUC** por sobre Accuracy.

---

## Regresión Logística

### Regresión Logística con `class_weight='balanced'`

- **ROC AUC:** ~0.63  
- **Recall clase 1:** ~0.55  
- **Precision clase 1:** ~0.12  

Este modelo logra identificar aproximadamente la mitad de los clientes morosos, pero con una precisión muy baja, lo que implica una gran cantidad de falsos positivos.  
Al tratarse de un modelo lineal, su capacidad para capturar relaciones complejas entre variables es limitada.

**Conclusión:**  
Modelo adecuado como **baseline explicativo**, pero no competitivo en términos de desempeño predictivo.

---

### Regresión Logística + SMOTE

Los resultados obtenidos con SMOTE fueron prácticamente equivalentes a los del modelo balanceado, sin mejoras relevantes en ROC AUC ni en F1-score.

**Conclusión:**  
El sobremuestreo no mejora el desempeño del modelo lineal en este caso.

---

## Random Forest

### Random Forest con `class_weight='balanced'`

- **ROC AUC:** ~0.766  
- **Recall clase 1:** ~0.52  
- **Precision clase 1:** ~0.22  

Este modelo presenta una mejora clara respecto a la regresión logística, capturando relaciones no lineales y mejorando la discriminación global.  
Sin embargo, el recall sigue siendo moderado y el modelo tiende a privilegiar la clase mayoritaria.

**Conclusión:**  
Buen modelo de referencia, pero no el mejor para maximizar detección de riesgo.

---

### Random Forest + SMOTE

El uso de SMOTE en Random Forest generó un comportamiento indeseado:  
- Recall extremadamente bajo en la clase minoritaria.
- El modelo termina clasificando casi todos los casos como clase 0.

**Conclusión:**  
SMOTE no resulta adecuado en combinación con Random Forest para este dataset.

---

### Ajuste de Umbral en Random Forest

Se evaluaron distintos umbrales de decisión.  
Aunque valores bajos del umbral aumentan levemente el recall, el F1-score se mantiene bajo y el modelo pierde estabilidad.

**Conclusión:**  
El ajuste de umbral no logra compensar las limitaciones estructurales del modelo.

---

## Gradient Boosting (sklearn)

- **ROC AUC:** ~0.768  
- **Recall clase 1:** ~0.02  

A pesar de un buen ROC AUC, el modelo prácticamente no detecta clientes morosos, clasificando la gran mayoría de los registros como clase 0.

**Conclusión:**  
Modelo descartado para el problema de riesgo crediticio.

---

## XGBoost

- **ROC AUC:** ~0.776  
- **Recall clase 1:** ~0.69  
- **Precision clase 1:** ~0.18  
- **F1-score clase 1:** ~0.28  

XGBoost muestra un equilibrio notable entre capacidad de discriminación y detección de clientes morosos.  
Es capaz de identificar cerca del **70% de los clientes en incumplimiento**, manteniendo una accuracy razonable para un problema desbalanceado.

**Conclusión:**  
Modelo altamente competitivo y ampliamente utilizado en contextos reales de riesgo crediticio.

---

## LightGBM (Modelo con Mejor Desempeño)

- **ROC AUC:** ~0.777  
- **Recall clase 1:** ~0.68  
- **Precision clase 1:** ~0.18  
- **F1-score clase 1:** ~0.29  

LightGBM presenta el **mejor desempeño global** entre todos los modelos evaluados.  
Obtiene el mayor ROC AUC y un recall elevado para la clase minoritaria, con tiempos de entrenamiento eficientes y buena escalabilidad.

**Conclusión:**  
LightGBM se selecciona como **modelo final del proyecto**, al ofrecer el mejor balance entre:
- Capacidad predictiva
- Detección de clientes morosos
- Robustez ante desbalance de clases

---

## Comparación Final de Modelos

| Modelo | ROC AUC | Recall (Clase 1) | Comentario |
|------|--------|------------------|-----------|
| Regresión Logística | ~0.63 | ~0.55 | Baseline explicativo |
| Random Forest | ~0.77 | ~0.52 | Buen benchmark |
| Gradient Boosting | ~0.77 | 0.02 | No usable |
| XGBoost | ~0.776 | ~0.69 | Muy competitivo |
| **LightGBM** | **~0.777** | **~0.68** | Modelo final |

---

## Conclusión General

A partir del análisis comparativo, se concluye que los modelos basados en **boosting de árboles** superan consistentemente a los modelos lineales y a Random Forest en el contexto de este problema.  

**LightGBM** es seleccionado como el modelo final, ya que:
- Maximiza la capacidad de discriminación (ROC AUC).
- Mantiene un alto recall para clientes morosos.
- Es consistente con prácticas reales en la industria financiera.

Este modelo se considera adecuado para su uso en un sistema de evaluación de riesgo crediticio.
