# Contexto del problema

El dataset Churn_Modelling.csv representa información de clientes bancarios.
Cada fila contiene variables demográficas y de comportamiento (edad, balance, productos, actividad, etc.) y una variable binaria:

- Exited = 1 si el cliente se fue
- Exited = 0 si permaneció

Por tanto, estamos ante un problema de clasificación binaria supervisada.

# Criterios para la elección del modelo

1. ROC - AUC
  - Mide la capacidad del modelo para distinguir entre clases (0 = se queda, 1 = se va).
  - Ideal cuando hay desbalance de clases.
  - Un AUC > 0.85 suele considerarse excelente.

2. F1-Score
  - Equilibrio entre precision (no dar falsos positivos) y recall (detectar bien los positivos).
  - Útil cuando ambos errores (falsos positivos y falsos negativos) son costosos  .

3. Precision / Recall (según el caso de negocio)
  - Precision alta: cuando es costoso contactar clientes que no se irán.
  - Recall alto: cuando es más costoso perder clientes reales sin actuar.

4. Accuracy
  - Mide porcentaje de aciertos, pero no es confiable si las clases están desbalanceadas.
  - Ejemplo: si solo el 20% se va, un modelo que siempre diga “no se va” tendrá 80% accuracy, pero 0 utilidad.

# Criterios técnicos (comparativos)

| Modelo                          | Mejor en...                            | Limitaciones                   | Cuándo elegirlo                                       |
| ------------------------------- | -------------------------------------- | ------------------------------ | ----------------------------------------------------- |
| **Regresión Logística**         | Interpretabilidad, velocidad           | Baja capacidad no lineal       | Si necesitas justificar decisiones (ej. regulaciones) |
| **Árbol de Decisión**           | Explicabilidad, no requiere escalado   | Tiende a sobreajustar          | Si buscas reglas comprensibles                        |
| **Random Forest**               | Precisión, robustez                    | Menor interpretabilidad        | Si buscas rendimiento sólido sin tuning complejo      |
| **Gradient Boosting / XGBoost** | Máxima precisión, ajuste fino          | Requiere tuning y más CPU      | Si necesitas el mejor desempeño predictivo            |
| **SVM**                         | Espacios complejos con pocas variables | Escala mal en grandes datasets | Si tu dataset es pequeño/mediano y limpio             |
| **KNN**                         | Simplicidad, sin entrenamiento         | Costoso en predicción          | Si el dataset es pequeño y se prioriza simpleza       |
| **MLP (Red Neuronal)**          | Patrones no lineales complejos         | Poca interpretabilidad         | Si tienes datos masivos o buscas precisión máxima     |


# Estrategia de elección

1. Entrena varios modelos base con hiperparámetros estándar.

2. Evalúa métricas cruzadas (ROC-AUC, F1, Accuracy, Recall).

3. Aplica validación cruzada (StratifiedKFold) → mide consistencia.

4. Observa overfitting:
  - Si el rendimiento en entrenamiento >> test → reducir complejidad o regularizar.

5. Elige el modelo con:
  - AUC alto (>0.85)
  - Gap pequeño entre entrenamiento y test
  - Métricas estables entre folds

6. Si hay empate:
  - Prefiere el modelo más simple e interpretable.

# Aplicado al dataset Churn_Modelling

Objetivo: identificar clientes que abandonarán (Exited=1)

Coste del error: perder un cliente sin detectarlo (falso negativo)

Por tanto: priorizamos Recall y AUC, sin descuidar la precisión.

Gradient Boosting (mejor AUC y Recall)

Random Forest (muy robusto y explicable)

Regresión Logística (referencia base e interpretable)