# Contexto del problema

El dataset Churn_Modelling.csv representa información de clientes bancarios.
Cada fila contiene variables demográficas y de comportamiento (edad, balance, productos, actividad, etc.) y una variable binaria:

- Exited = 1 si el cliente se fue
- Exited = 0 si permaneció

Por tanto, estamos ante un problema de clasificación binaria supervisada.

# Criterios para la elección del modelo

1. ROC - AUC
  - Mide la capacidad del modelo para distinguir entre clases (0 = se queda, 1 = se va).
  - Ideal cuando hay desbalance de clases.
  - Un AUC > 0.85 suele considerarse excelente.

2. F1-Score
  - Equilibrio entre precision (no dar falsos positivos) y recall (detectar bien los positivos).
  - Útil cuando ambos errores (falsos positivos y falsos negativos) son costosos  .

3. Precision / Recall (según el caso de negocio)
  - Precision alta: cuando es costoso contactar clientes que no se irán.
  - Recall alto: cuando es más costoso perder clientes reales sin actuar.

4. Accuracy
  - Mide porcentaje de aciertos, pero no es confiable si las clases están desbalanceadas.
  - Ejemplo: si solo el 20% se va, un modelo que siempre diga “no se va” tendrá 80% accuracy, pero 0 utilidad.

# Criterios técnicos (comparativos)

| Modelo                          | Mejor en...                            | Limitaciones                   | Cuándo elegirlo                                       |
| ------------------------------- | -------------------------------------- | ------------------------------ | ----------------------------------------------------- |
| **Regresión Logística**         | Interpretabilidad, velocidad           | Baja capacidad no lineal       | Si necesitas justificar decisiones (ej. regulaciones) |
| **Árbol de Decisión**           | Explicabilidad, no requiere escalado   | Tiende a sobreajustar          | Si buscas reglas comprensibles                        |
| **Random Forest**               | Precisión, robustez                    | Menor interpretabilidad        | Si buscas rendimiento sólido sin tuning complejo      |
| **Gradient Boosting / XGBoost** | Máxima precisión, ajuste fino          | Requiere tuning y más CPU      | Si necesitas el mejor desempeño predictivo            |
| **SVM**                         | Espacios complejos con pocas variables | Escala mal en grandes datasets | Si tu dataset es pequeño/mediano y limpio             |
| **KNN**                         | Simplicidad, sin entrenamiento         | Costoso en predicción          | Si el dataset es pequeño y se prioriza simpleza       |
| **MLP (Red Neuronal)**          | Patrones no lineales complejos         | Poca interpretabilidad         | Si tienes datos masivos o buscas precisión máxima     |


# Aplicado al dataset Churn_Modelling

Objetivo: identificar clientes que abandonarán (Exited=1)

Coste del error: perder un cliente sin detectarlo (falso negativo)

Por tanto: priorizamos Recall y AUC, sin descuidar la precisión.

# Seleccionar el modelo

### Definir métrica de desempeño

Del dataset se puede evidenciar una clasificación binario de clases desbalanceadas entre 80/20, lo cual indica que no solo con accuracy (si estuvieran balanceadas las clases sí) se puede medir el modelo.

Métricas recomendadas para evaluación

Accuracy: porcentaje de aciertos global.

Precision: exactitud de los positivos predichos.

Recall (Sensibilidad): capacidad para detectar positivos reales.

F1-score: equilibrio entre precisión y recall.

ROC-AUC: mide la capacidad general del modelo para discriminar entre las dos clases.


Como la variable objetivo es variable dicotómica (0 o 1), se acotan los modelos a usar:
| Tipo                              | Modelo                                     | Descripción                                                                                                                                                                                               |
| --------------------------------- | ------------------------------------------ | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| **Lineales**                      | **Regresión Logística**                    | Es el modelo base para variables binarias. Calcula la probabilidad de pertenecer a la clase positiva mediante una función sigmoide. Es interpretable y muy usado en banca, salud, riesgo crediticio, etc. |
| **No lineales (árboles)**         | **Árbol de Decisión**                      | Divide los datos según reglas lógicas (ej. “edad > 40”) hasta clasificar los casos. Intuitivo y explicable.                                                                                               |
| **Ensamblados (mayor precisión)** | **Random Forest**                          | Combina múltiples árboles para reducir el error de un solo árbol. Mejora estabilidad y generalización.                                                                                                    |
|                                   | **Gradient Boosting / XGBoost / LightGBM** | Ensambles secuenciales que optimizan el error del modelo previo. Ofrecen los mejores resultados predictivos en la mayoría de los problemas de clasificación binaria.                                      |
| **Basados en distancia**          | **K-Nearest Neighbors (KNN)**              | Clasifica según los *k* vecinos más cercanos. Sencillo, aunque sensible al ruido y escalado.                                                                                                              |
| **Margen máximo**                 | **Support Vector Machine (SVM)**           | Encuentra el hiperplano que mejor separa las clases. Muy eficaz en espacios con muchas variables.                                                                                                         |
| **Neurales**                      | **Perceptrón Multicapa (MLPClassifier)**   | Red neuronal capaz de aprender relaciones complejas y no lineales. Requiere más datos y cómputo.                                                                                                          |
