<a href="https://colab.research.google.com/github/rubuntu/Taller_Introduccion_a_Ciencia_de_Datos_IA_e_Ingenieria_de_Datos/blob/main/sesion_09_comparacion_con_regresion_logistica_y_evaluacion_de_modelos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Sesi√≥n 09: Comparaci√≥n con Regresi√≥n Log√≠stica y Evaluaci√≥n de Modelos

## Objetivos
- Entrenar un modelo de regresi√≥n log√≠stica como baseline.
- Comparar m√©tricas con XGBoost y CatBoost.
- Discutir implicaciones pr√°cticas en banca.

---

## 1. Regresi√≥n Log√≠stica Baseline

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from xgboost import XGBClassifier, plot_importance, DMatrix
from sklearn.metrics import classification_report, roc_auc_score, confusion_matrix, roc_curve, auc
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Verificar si catboost est√° instalado, si no instalarlo
try:
    from catboost import CatBoostClassifier
    #print("‚úÖ CatBoost ya est√° instalado")
except ImportError:
    print("‚ö†Ô∏è CatBoost no est√° instalado. Instalando ahora...")
    !pip install -q catboost > /dev/null
    from catboost import CatBoostClassifier
    print("‚úÖ CatBoost instalado correctamente")

In [None]:
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/00350/default%20of%20credit%20card%20clients.xls"
df = pd.read_excel(url, header=1)

df.rename(columns={"default payment next month": "default"}, inplace=True)

In [None]:
X = df.drop(columns=["ID","default"])
y = df["default"]

# Seleccionamos solo las columnas num√©ricas
numericas = X.select_dtypes(include=['int64', 'float64']).columns

# Inicializamos el scaler
scaler = StandardScaler()

# Ajustamos y transformamos
X_scaled = X.copy()
X_scaled[numericas] = scaler.fit_transform(X[numericas])

X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.3, random_state=42, stratify=y
)

In [None]:
from sklearn.linear_model import LogisticRegression

logreg = LogisticRegression(max_iter=1000)
logreg.fit(X_train, y_train)

y_pred_lr = logreg.predict(X_test)
y_proba_lr = logreg.predict_proba(X_test)[:,1]

print(classification_report(y_test, y_pred_lr))
print("AUC:", roc_auc_score(y_test, y_proba_lr))

---

## 2. Comparaci√≥n de Modelos

In [None]:
# Calcular el ratio
neg, pos = np.bincount(y_train)
scale = neg / pos

# Modelo con ajuste por desbalance y regularizaci√≥n
xgb = XGBClassifier(
    n_estimators=200,
    learning_rate=0.1,
    max_depth=4,
    random_state=42,
    eval_metric="logloss",
    scale_pos_weight=scale,   # üëà desbalance
    reg_lambda=1.0,           # üëà regularizaci√≥n L2 (default=1.0)
    reg_alpha=0.1             # üëà regularizaci√≥n L1 (default=0.0, aqu√≠ lo activamos)
)

xgb.fit(X_train, y_train)

y_pred_xgb = xgb.predict(X_test)
y_proba_xgb = xgb.predict_proba(X_test)[:,1]

print(classification_report(y_test, y_pred_xgb))
print("AUC:", roc_auc_score(y_test, y_proba_xgb))

In [None]:
cat = CatBoostClassifier(
    iterations=200,
    depth=6,
    learning_rate=0.1,
    random_seed=42,
    verbose=50,
    loss_function="Logloss",   # lo que se optimiza
    eval_metric="AUC",         # lo que se usa para seleccionar el "best iteration"
    auto_class_weights="Balanced",
    early_stopping_rounds=100,  # ‚ö° se detiene si no mejora en 100 iteraciones
)

cat.fit(
    X_train, y_train,
    eval_set=(X_test, y_test),
    use_best_model=True,
    #plot=True
)

y_pred_cat = cat.predict(X_test)
y_proba_cat = cat.predict_proba(X_test)[:,1]

print(classification_report(y_test, y_pred_cat))
print("AUC:", roc_auc_score(y_test, y_proba_cat))

In [None]:
results = {
    "Logistic Regression": roc_auc_score(y_test, y_proba_lr),
    "XGBoost": roc_auc_score(y_test, xgb.predict_proba(X_test)[:,1]),
    "CatBoost": roc_auc_score(y_test, cat.predict_proba(X_test)[:,1])
}

import pandas as pd
print(pd.DataFrame(results, index=["AUC"]).T)

---

## 3. Interpretaci√≥n en Contexto Bancario

* **Regresi√≥n log√≠stica**: m√°s interpretable, √∫til para auditor√≠a/regulaci√≥n.
* **XGBoost / CatBoost**: mejor performance, √∫til en scoring de riesgo real.
* Elecci√≥n depende del trade-off entre **precisi√≥n vs explicabilidad**.

---

## 4. Visualizaci√≥n de Importancia de Features

In [None]:
fig, ax1 = plt.subplots(figsize=(10, 6))
ax2 = ax1.twinx()

idx = np.arange(len(feature_names))

ax1.bar(idx - 0.2, xgb_feat, width=0.4, label="XGBoost (0‚Äì1)", alpha=0.7)
ax2.bar(idx + 0.2, cat_feat, width=0.4, label="CatBoost (0‚Äì100)", alpha=0.5, color="tab:orange")

ax1.set_xticks(idx)
ax1.set_xticklabels(feature_names, rotation=45, ha="right")
ax1.set_ylabel("XGBoost (suma=1)")
ax2.set_ylabel("CatBoost (suma‚âà100)")
plt.title("Importancia de Variables")
fig.tight_layout()
fig.legend(loc="upper right")
plt.show()


## 5. Preguntas de Discusi√≥n

### 1. ¬øQu√© m√©trica es m√°s relevante para un banco: AUC, Recall o Precision?

* **AUC (Area Under the Curve)** mide la capacidad global del modelo para distinguir entre clases (por ejemplo, buenos vs. malos pagadores). Es √∫til para comparar modelos, pero no dice directamente el costo de errores.
* **Recall (Sensibilidad o Tasa de Verdaderos Positivos)** mide cu√°ntos malos pagadores fueron correctamente identificados. Es muy cr√≠tico en banca, porque perder un cliente de alto riesgo (falso negativo) significa p√©rdidas directas.
* **Precision (Precisi√≥n o Valor Predictivo Positivo)** mide cu√°ntos de los clientes clasificados como ‚Äúmalos pagadores‚Äù realmente lo son. En banca, baja precisi√≥n implica que estamos rechazando muchos clientes que en realidad pagar√≠an (p√©rdida de negocio).

üëâ **Relevancia:**

* Para **riesgo crediticio**, normalmente se prefiere **Recall** alto, porque lo m√°s costoso es aprobar a alguien que no va a pagar (falso negativo).
* Sin embargo, el banco tambi√©n debe cuidar la **Precision**, porque si rechaza demasiados buenos clientes pierde mercado.
* El **AUC** sirve como comparador general de modelos, pero la decisi√≥n de negocio suele ponderar Recall y Precision en funci√≥n de la estrategia del banco.

---

### 2. ¬øPor qu√© un banco podr√≠a preferir regresi√≥n log√≠stica aunque rinda peor?

* **Interpretabilidad:** la regresi√≥n log√≠stica es lineal y sus coeficientes se interpretan como odds ratios, lo que permite explicar f√°cilmente por qu√© un cliente fue aprobado o rechazado. Esto es cr√≠tico por **regulaci√≥n** y para la confianza del negocio.
* **Simplicidad:** es m√°s f√°cil de mantener, auditar y comunicar a stakeholders (reguladores, comit√© de riesgos, auditores internos).
* **Robustez:** la regresi√≥n log√≠stica es menos propensa a sobreajustar que modelos m√°s complejos (XGBoost, redes neuronales) si los datos no son muy grandes.
* **Costos regulatorios:** en muchos pa√≠ses, los reguladores exigen modelos explicables para decisiones crediticias; un ‚Äúblack box‚Äù puede ser problem√°tico.

üëâ Aunque XGBoost tenga mejor AUC, el banco podr√≠a preferir regresi√≥n log√≠stica porque **sacrifica algo de performance a cambio de transparencia, auditabilidad y cumplimiento regulatorio**.

---

### 3. ¬øC√≥mo monitorear√≠as el drift de estos modelos en producci√≥n?

Primero: **¬øQu√© es drift?**
El **drift** ocurre cuando la distribuci√≥n de los datos de producci√≥n se desv√≠a respecto de los datos usados en el entrenamiento. Esto degrada la performance del modelo con el tiempo. Hay varios tipos:

* **Data Drift (o covariate shift):** cambian las distribuciones de las variables de entrada (ejemplo: cambia la proporci√≥n de clientes j√≥venes vs. mayores que piden cr√©dito).
* **Concept Drift:** cambia la relaci√≥n entre variables y la etiqueta (ejemplo: antes, cierto nivel de deuda era se√±al de riesgo, pero en crisis econ√≥mica deja de serlo).
* **Label Drift:** cambian las proporciones de la variable objetivo (ejemplo: aumenta la tasa real de impagos en la econom√≠a).

üëâ **C√≥mo monitorear drift en producci√≥n:**

1. **Comparar distribuciones de features:** usar tests estad√≠sticos (Kolmogorov‚ÄìSmirnov, Jensen-Shannon, PSI ‚Äì Population Stability Index) para detectar si las variables de entrada cambiaron.
2. **Monitoreo de m√©tricas de performance:** seguir AUC, Recall, Precision en muestras de datos con etiquetas recientes. Si bajan, puede haber concept drift.
3. **Alertas tempranas:** implementar dashboards (ej. con EvidentlyAI, Fiddler, MLflow) que automaticen la detecci√≥n de drift y generen alertas.
4. **Retraining peri√≥dico:** si el drift persiste, reentrenar con datos recientes para que el modelo se adapte.

üëâ En banca, el drift es **cr√≠tico** porque los h√°bitos de pago de los clientes cambian con la econom√≠a, nuevas regulaciones o crisis financieras.

---

‚úÖ Resumen:

* **M√©trica clave:** Recall (pero sin olvidar Precision).
* **Modelo simple:** regresi√≥n log√≠stica se prefiere por interpretabilidad y regulaci√≥n.
* **Drift:** desviaci√≥n en datos o relaciones; se monitorea con tests de distribuci√≥n, performance en producci√≥n y retraining peri√≥dico.
