<a href="https://colab.research.google.com/github/rubuntu/Taller_Introduccion_a_Ciencia_de_Datos_IA_e_Ingenieria_de_Datos/blob/main/sesion_07_introduccion_a_xgboost.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Sesi√≥n 07: Introducci√≥n a XGBoost

## Objetivos
- Comprender qu√© es XGBoost y por qu√© es potente en clasificaci√≥n tabular.
- Preparar el dataset de default de tarjetas de cr√©dito.
- Entrenar un primer modelo de XGBoost y evaluarlo.

---

## üå≥ √Årboles de decisi√≥n

Un **√°rbol de decisi√≥n** es un modelo de machine learning que divide los datos en ramas y hojas para hacer predicciones.

* Se construye haciendo **preguntas secuenciales** sobre las variables (features).
* Cada nodo interno representa una condici√≥n (ej. *‚Äú¬øedad < 30?‚Äù*).
* Cada rama representa una respuesta (*s√≠ / no*).
* Cada hoja contiene un resultado (predicci√≥n de clase o valor).

üìå **Ventajas**

* F√°cil de interpretar y visualizar.
* Maneja variables num√©ricas y categ√≥ricas.
* No requiere mucha preparaci√≥n de datos.

üìå **Desventajas**

* Puede sobreajustar (*overfitting*).
* Sensibles a peque√±as variaciones en los datos.

---

## ‚ö° Boosting

El **boosting** es una t√©cnica de **ensemble learning** (modelos combinados) que mejora el rendimiento de modelos d√©biles (como √°rboles poco profundos).

La idea principal es:

1. Entrenar un **primer √°rbol**.
2. Ver los **errores** que cometi√≥.
3. Entrenar un **segundo √°rbol** que se enfoque en corregir esos errores.
4. Repetir el proceso, combinando muchos √°rboles **d√©biles** para crear un **modelo fuerte**.

### Ejemplos de algoritmos de boosting:

* **AdaBoost**: ajusta pesos a las observaciones mal clasificadas.
* **Gradient Boosting**: corrige errores minimizando una funci√≥n de p√©rdida (m√°s preciso que AdaBoost).
* **XGBoost, LightGBM, CatBoost**: implementaciones modernas, r√°pidas y optimizadas de gradient boosting.

üìå **Ventajas**

* Suele lograr alta precisi√≥n.
* Maneja relaciones no lineales y complejas.
* Flexible (puede usarse para regresi√≥n y clasificaci√≥n).

üìå **Desventajas**

* M√°s dif√≠cil de interpretar que un solo √°rbol.
* Computacionalmente m√°s costoso.
* Puede sobreajustar si no se ajustan bien los hiperpar√°metros.

---

üëâ En pocas palabras:

* **√Årbol de decisi√≥n** = un modelo sencillo y visual.
* **Boosting** = muchos √°rboles peque√±os que se ayudan entre s√≠ corrigiendo errores.

---
## üîπ  ¬øQu√© es XGBoost?
- **Extreme Gradient Boosting**: algoritmo basado en √°rboles de decisi√≥n y boosting.
- Combina m√∫ltiples √°rboles d√©biles en un modelo fuerte.
- Ventajas:
  - Maneja bien datos tabulares.
  - Regularizaci√≥n integrada (evita overfitting).
  - Muy eficiente y escalable.

---



## üîπ ¬øQu√© son los SHAP Values?

Los **SHAP Values** (**SHapley Additive exPlanations**) son una t√©cnica de **explicabilidad de modelos de machine learning**.
Su objetivo es responder a la pregunta:

üëâ *‚Äú¬øCu√°nto aporta cada variable (feature) a la predicci√≥n de un modelo para un caso espec√≠fico?‚Äù*

Es decir, no solo dicen qu√© variables son importantes en general, sino tambi√©n **c√≥mo influyen en la predicci√≥n de cada individuo** (ejemplo: por qu√© el cliente 123 fue clasificado como riesgo alto).

Cada predicci√≥n se descompone como:

$$
\text{Predicci√≥n} = \text{Valor base (esperado)} + \sum_{i=1}^M \text{SHAP value}_i
$$

* **Valor base**: la predicci√≥n promedio si no supi√©ramos nada (ej. probabilidad media de default en el dataset).
* **SHAP value de una feature**: cu√°nto sube o baja la predicci√≥n al considerar esa variable en el caso concreto.

---

## üîπ Origen: Teor√≠a de Juegos de Shapley (1953)

Los SHAP Values se inspiran en los **valores de Shapley**, un concepto de la **teor√≠a de juegos cooperativos** de Lloyd Shapley (premio Nobel de Econom√≠a, 2012).

En un juego cooperativo:

* Hay **jugadores** que contribuyen a una recompensa com√∫n.
* Los **valores de Shapley** determinan una forma justa de repartir la recompensa seg√∫n el aporte de cada jugador.

En Machine Learning:

* Los **jugadores** son las **variables (features)**.
* La **recompensa** es la **predicci√≥n del modelo**.
* El **valor de Shapley** indica cu√°nto contribuy√≥ cada variable a la predicci√≥n final.

---

## üîπ Ventajas de SHAP

* **Explicaciones consistentes y justas** (garantiza propiedades matem√°ticas de equidad heredadas de la teor√≠a de juegos).
* **Explicaciones locales y globales**:

  * Locales ‚Üí por instancia (ej. cliente espec√≠fico).
  * Globales ‚Üí promedio de contribuciones, para ranking de importancia de variables.
* **Aplicable a cualquier modelo** (√°rboles, redes neuronales, regresiones, etc.).
* Tiene implementaciones optimizadas para modelos de √°rboles como **XGBoost, LightGBM, CatBoost**, lo que lo hace muy usado en datos tabulares.

---

‚úÖ Resumen:
Los **SHAP values** son una adaptaci√≥n de los **valores de Shapley (teor√≠a de juegos de 1953)** al mundo del machine learning. Nos permiten interpretar modelos complejos asignando a cada variable un aporte justo y cuantitativo en cada predicci√≥n.

---


## Dataset
Fuente: [UCI Default of Credit Card Clients](https://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients)

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [None]:
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/00350/default%20of%20credit%20card%20clients.xls"
df = pd.read_excel(url, header=1)

df.rename(columns={"default payment next month": "default"}, inplace=True)
df.head()

In [None]:
df.describe().T

In [None]:
df.nunique()

In [None]:
df.hist(bins=20, figsize=(10, 6))

---

## Preprocesamiento

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

X = df.drop(columns=["ID","default"])
y = df["default"]

feature_names = list(X.columns)

#scaler = StandardScaler()
#X_scaled = scaler.fit_transform(X)

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)


In [None]:
# X_scaled es un array de NumPy
# stats = {
#    "count": X_scaled.shape[0],
#    "mean": np.mean(X_scaled, axis=0),
#    "std": np.std(X_scaled, axis=0, ddof=1),  # ddof=1 para que sea como pandas
#    "min": np.min(X_scaled, axis=0),
#    "25%": np.percentile(X_scaled, 25, axis=0),
#    "50%": np.median(X_scaled, axis=0),
#    "75%": np.percentile(X_scaled, 75, axis=0),
#    "max": np.max(X_scaled, axis=0)
#}
#pd.DataFrame(stats, index=X.columns)

---

## Entrenar XGBoost

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from xgboost import XGBClassifier, plot_importance, DMatrix
from sklearn.metrics import classification_report, roc_auc_score, confusion_matrix, roc_curve, auc

# Calcular el ratio
neg, pos = np.bincount(y_train)
scale = neg / pos
print(f"Negativos: {neg}, Positivos: {pos}, scale_pos_weight: {scale:.2f}")

# Modelo con ajuste por desbalance y regularizaci√≥n
xgb = XGBClassifier(
    n_estimators=200,
    learning_rate=0.1,
    max_depth=4,
    random_state=42,
    eval_metric="logloss",
    scale_pos_weight=scale,   # üëà desbalance
    reg_lambda=1.0,           # üëà regularizaci√≥n L2 (default=1.0)
    reg_alpha=0.1             # üëà regularizaci√≥n L1 (default=0.0, aqu√≠ lo activamos)
)


xgb.fit(X_train, y_train)
y_pred = xgb.predict(X_test)
y_proba = xgb.predict_proba(X_test)[:,1]

print(classification_report(y_test, y_pred))
print("AUC:", roc_auc_score(y_test, y_proba))

## Explicaci√≥n del c√≥digo

---

### 1) Calcular el ratio de desbalance

```python
neg, pos = np.bincount(y_train)
scale = neg / pos
print(f"Negativos: {neg}, Positivos: {pos}, scale_pos_weight: {scale:.2f}")
```

* `np.bincount(y_train)` cuenta cu√°ntas instancias hay de la clase **0** (*neg*) y de la clase **1** (*pos*).

  > Requisito: `y_train` debe ser binaria con etiquetas **0/1**. Si no lo es, convi√©rtelas (p. ej., con `LabelEncoder`).
* `scale = neg / pos` calcula el **ratio** entre clases.

  * Si hay muchos m√°s 0 que 1, `scale` ser√° grande ‚Üí se **aumenta el peso** de los positivos en el entrenamiento.
* Este valor se usa en `scale_pos_weight` (ver abajo).

**¬øPor qu√© sirve?**
En datasets desbalanceados, el modelo puede ‚Äúignorar‚Äù la clase minoritaria. `scale_pos_weight` **repondera** la p√©rdida para que los positivos ‚Äúpesen‚Äù m√°s, ayudando a detectar la clase rara (p. ej., *default*).

---

### 2) Modelo con ajuste por desbalance y regularizaci√≥n

```python
xgb = XGBClassifier(
    n_estimators=200,
    learning_rate=0.1,
    max_depth=4,
    random_state=42,
    eval_metric="logloss",
    scale_pos_weight=scale,   # üëà desbalance
    reg_lambda=1.0,           # üëà L2 (default=1.0)
    reg_alpha=0.1             # üëà L1 (default=0.0, aqu√≠ lo activamos)
)
```

* **`scale_pos_weight=scale`**: pondera m√°s la **clase positiva (1)** en la funci√≥n de p√©rdida. Regla pr√°ctica: `neg/pos`.

  * √ötil cuando **pos** ‚â™ **neg**.
  * Alternativa: pasar **`sample_weight`** por instancia al `fit` si quieres pesos m√°s finos.
* **Regularizaci√≥n**: controla la **complejidad** del ensemble para evitar **overfitting**.

  * `reg_lambda` (**L2**): reduce magnitudes de los pesos en las hojas ‚Üí suaviza el modelo.
  * `reg_alpha` (**L1**): favorece **sparsidad** (muchos pesos = 0) ‚Üí simplifica y puede mejorar interpretabilidad.
* Otros hiperpar√°metros (ya configurados):

  * `n_estimators=200` y `learning_rate=0.1`: m√°s √°rboles + pasos peque√±os ‚Üí aprendizaje m√°s estable.
  * `max_depth=4`: √°rboles poco profundos reducen el riesgo de sobreajuste en tabulares.
  * `eval_metric="logloss"`: p√©rdida logar√≠tmica binaria para seguimiento del entrenamiento.

> Tip de pr√°ctica: afina `scale_pos_weight`, `reg_lambda`, `reg_alpha`, `max_depth`, `min_child_weight`, `subsample`, `colsample_bytree` con **validaci√≥n cruzada** o **early stopping**.

---

### 3) Entrenamiento y predicci√≥n

```python
xgb.fit(X_train, y_train)
y_pred  = xgb.predict(X_test)
y_proba = xgb.predict_proba(X_test)[:,1]
```

* `fit`: entrena el ensemble de √°rboles.
* `predict`: devuelve etiquetas 0/1 usando umbral 0.5 por defecto.
* `predict_proba` (columna `[:,1]`): devuelve **probabilidades** de clase positiva. √ötil para m√©tricas umbral-dependientes, **ROC/PR**, *calibration*, y para ajustar el umbral seg√∫n costos de negocio.

> Tip: En problemas desbalanceados, **no quedarse con el umbral 0.5**. Eliger uno que optimice una m√©trica objetivo (ej., **F1**, **Recall\@Precision**, **Expected cost**).

---

### 4) Evaluaci√≥n

```python
print(classification_report(y_test, y_pred))
print("AUC:", roc_auc_score(y_test, y_proba))
```

* `classification_report`: precisi√≥n, recall y F1 por clase (basadas en **y\_pred** ‚Üí dependen del **umbral**).
* `roc_auc_score`: AUC-ROC sobre **probabilidades** (**y\_proba**).

  * **AUC** no depende del umbral y mide la **capacidad discriminativa** global del modelo.
  * En banca, suele complementarse con **KS**, **Gini** y **PR AUC** si hay fuerte desbalance.

---

### Buenas pr√°cticas y mejoras r√°pidas

1. **Early Stopping** (evita sobreajuste y ahorra c√≥mputo):

```python
xgb.fit(
    X_train, y_train,
    eval_set=[(X_test, y_test)],
    early_stopping_rounds=50,      # detiene si no mejora
    verbose=False
)
```

2. **B√∫squeda de umbral √≥ptimo** (ejemplo con F1):

```python
from sklearn.metrics import f1_score
import numpy as np

probas = y_proba
ths = np.linspace(0.01, 0.99, 99)
f1s = [f1_score(y_test, (probas >= t).astype(int)) for t in ths]
best_t = ths[int(np.argmax(f1s))]
print(f"Mejor umbral por F1: {best_t:.2f}, F1={max(f1s):.3f}")
```

3. **Cu√°ndo usar `scale_pos_weight`**

* √ösar cuando **pos** ‚â™ **neg**. Si hay **pesos por instancia** (costos diferentes), considera `sample_weight` en `fit`.
* Evitar **mezclar** `scale_pos_weight` con otra l√≥gica de pesos que duplique el efecto (p. ej., `sample_weight` ya desbalanceado) salvo que lo hagas intencionalmente.

4. **Sanity checks**

* Verificar que `pos > 0` (si no, `neg/pos` explota).
* Si las etiquetas no son 0/1, normalizarlas antes de `bincount`.

---

### Resumen

* Se calcula el **ratio de clases** para informar al modelo del desbalance (`scale_pos_weight`).
* Se a√±ade **regularizaci√≥n L1/L2** para **controlar complejidad** y **evitar overfitting**.
* Se eval√∫a con **m√©tricas por probabilidad (AUC)** y por etiqueta (report), recordando que el **umbral** es clave en desbalance.
* Considerar **early stopping** y **b√∫squeda de umbral** para mejores resultados pr√°cticos.


In [None]:
# === Matriz de confusi√≥n ===
cm = confusion_matrix(y_test, y_pred)

plt.figure(figsize=(5,4))
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues", cbar=False)
plt.xlabel("Predicci√≥n")
plt.ylabel("Valor real")
plt.title("Matriz de confusi√≥n")
plt.show()

# === Curva ROC ===
fpr, tpr, thresholds = roc_curve(y_test, y_proba)
roc_auc = auc(fpr, tpr)

plt.figure(figsize=(6,5))
plt.plot(fpr, tpr, label=f"XGBClassifier (AUC = {roc_auc:.2f})")
plt.plot([0,1], [0,1], linestyle="--", color="gray")  # l√≠nea diagonal
plt.xlabel("False Positive Rate")
plt.ylabel("True Positive Rate")
plt.title("Curva ROC")
plt.legend(loc="lower right")
plt.show()


In [None]:
# =========================================================
# Importancia de variables (built-in de XGBoost)
# kinds disponibles: "weight", "gain", "cover", "total_gain", "total_cover"
# =========================================================

# Asignar nombres al booster (si X_train era ndarray)
booster = xgb.get_booster()
booster.feature_names = feature_names

plt.figure(figsize=(7,6))
plot_importance(xgb, importance_type="gain", max_num_features=20)
plt.title("Importancia de variables (gain) - XGBoost")
plt.show()


In [None]:
# SHAP values v√≠a XGBoost (pred_contribs=True) y gr√°fico de barras por mean |SHAP|
# - Usamos DMatrix para garantizar los nombres

dtest = DMatrix(X_test, feature_names=feature_names)
shap_values_full = booster.predict(dtest, pred_contribs=True)  # (n_samples, n_features + 1) incluye bias
shap_values = shap_values_full[:, :-1]  # quitamos bias

mean_abs_shap = np.mean(np.abs(shap_values), axis=0)
order = np.argsort(mean_abs_shap)[::-1]
top_k = min(20, len(feature_names))

plt.figure(figsize=(7,6))
plt.barh(np.array(feature_names)[order[:top_k]][::-1], mean_abs_shap[order[:top_k]][::-1])
plt.xlabel("Mean |SHAP value|")
plt.title("Importancia (media de |SHAP|) - Top features")
plt.tight_layout()
plt.show()

## üîπ ¬øQu√© es un **Beeswarm plot** en SHAP?

El **Beeswarm plot** es el gr√°fico **resumen m√°s usado en SHAP**.
Muestra, en **una sola figura**, c√≥mo todas las variables influyen en las predicciones de un modelo.

Es una **visualizaci√≥n compacta y global** de los SHAP values.

---

## üîπ ¬øC√≥mo se interpreta?

1. **Eje Y (vertical):** lista de variables, ordenadas de arriba hacia abajo por **importancia global** (media del valor absoluto de SHAP).
2. **Eje X (horizontal):** valor SHAP ‚Üí cu√°nto aporta la variable a la predicci√≥n.

   * Valores positivos ‚Üí empujan la predicci√≥n hacia arriba (ej. mayor riesgo de default).
   * Valores negativos ‚Üí empujan la predicci√≥n hacia abajo (ej. menor riesgo de default).
3. **Cada punto** = una observaci√≥n (fila del dataset).
4. **Color del punto:** representa el valor real de la feature (bajo ‚Üí azul, alto ‚Üí rojo). Esto permite ver **patrones**:

   * Ejemplo: si para *edad*, los puntos rojos (edades altas) tienen SHAP negativo, significa que **edad alta disminuye el riesgo**.

---

## üîπ ¬øPor qu√© se llama ‚ÄúBeeswarm‚Äù?

Porque al juntar miles de puntos de distintas observaciones en una sola figura, parecen un **enjambre de abejas** alrededor de cada variable.
Los puntos se distribuyen horizontalmente para no superponerse, creando esa apariencia.

---

## üîπ Ventajas del Beeswarm plot

* Resume toda la informaci√≥n en un solo gr√°fico.
* Permite ver **importancia global** y tambi√©n **efectos locales** de cada variable.
* Muestra **no linealidades** y **direcci√≥n del impacto**.
* Mucho m√°s informativo que un simple ranking de importancias.

---

‚úÖ **En resumen:**
El **Beeswarm plot en SHAP** es una representaci√≥n visual que combina importancia de variables y efecto individual de cada observaci√≥n, mostrando tanto la magnitud como la direcci√≥n de la contribuci√≥n de cada feature al modelo.

---


In [None]:
import shap
import matplotlib.pyplot as plt

explainer = shap.TreeExplainer(xgb.get_booster())
shap_values_shap = explainer.shap_values(X_test)

# --- Beeswarm ---
shap.summary_plot(shap_values_shap, X_test, feature_names=feature_names, show=False)

plt.title("SHAP Values - Beeswarm", fontsize=14)  # üëà t√≠tulo sobre el gr√°fico
plt.show()


## üîπ ¬øQu√© es un *force plot* en SHAP?

El **force plot** es una de las visualizaciones cl√°sicas de **SHAP (SHapley Additive exPlanations)**.
Sirve para mostrar, en una sola observaci√≥n (una fila de tu dataset), **c√≥mo cada variable contribuye a empujar la predicci√≥n** de tu modelo hacia arriba o hacia abajo respecto al valor base (*expected value*).

---

### üìå Conceptos clave

* **Expected Value (valor base):**
  Es el valor promedio del modelo antes de ver ninguna caracter√≠stica (ejemplo: la probabilidad media de la clase positiva en el dataset).

* **SHAP values:**
  Para cada feature, indica si esa variable **aumenta** o **disminuye** la predicci√≥n respecto al expected value.

  * Valores SHAP positivos ‚Üí empujan la predicci√≥n hacia la clase positiva (mayor probabilidad de default, churn, etc.).
  * Valores SHAP negativos ‚Üí empujan hacia la clase negativa.

* **Predicci√≥n final:**
  Se obtiene sumando el expected value + la suma de todos los SHAP values de esa instancia.

---

### üîé ¬øC√≥mo se interpreta el gr√°fico?

En el force plot:

* Hay una **barra horizontal** que representa el valor base al inicio y la predicci√≥n final al final.
* Cada feature aparece como una "fuerza":

  * **Rojo (‚Üí)**: empuja la predicci√≥n hacia arriba (hacia 1 en binario).
  * **Azul (‚Üê)**: empuja hacia abajo (hacia 0 en binario).

Es como una balanza de fuerzas: cada variable suma o resta hasta alcanzar la probabilidad final que da el modelo.

---

### üìä Ejemplo pr√°ctico en tu caso (Bank Marketing)

Si la predicci√≥n es que un cliente **s√≠ suscribir√° un dep√≥sito**:

* Variables como `contact=cellular`, `month=mar`, `duration=longa llamada` pueden aparecer en rojo ‚Üí empujando hacia **s√≠**.
* Variables como `age=young`, `previous=0`, `poutcome=unknown` pueden aparecer en azul ‚Üí empujando hacia **no**.

As√≠ pod√©s ver **qu√© combinaci√≥n espec√≠fica de factores llev√≥ a la decisi√≥n del modelo para ese cliente**.

---

üëâ Resumen:
El **force plot** es una visualizaci√≥n **individual** que explica **c√≥mo cada feature influy√≥ en la predicci√≥n de un caso particular**, mostrando de manera gr√°fica las fuerzas que llevan desde el promedio (expected value) hasta la predicci√≥n final.

---


In [None]:
## Force plot individual con SHAP (XGBoost)

# Elegimos un √≠ndice del test (ej. la primera fila)
i = 0

# Extraer valores de la fila y sus SHAP values
x_row = X_test.iloc[i]
shap_row = shap_values_shap[i]

# Inicializar visualizaci√≥n interactiva de SHAP
shap.initjs()

# Force plot para la instancia i
shap.force_plot(
    base_value=explainer.expected_value,  # valor base (expected value)
    shap_values=shap_row,                 # contribuciones SHAP de la fila
    features=x_row,                       # valores de las features de esa fila
    feature_names=feature_names,          # opcional si quer√©s mostrar nombres expl√≠citos
    matplotlib=True                      # interactivo en notebook (True = gr√°fico est√°tico)
)

## üîπ ¬øQu√© es un **Dependence Plot** en SHAP?

Un **Dependence Plot** es un gr√°fico que muestra **c√≥mo influye una variable en las predicciones del modelo seg√∫n sus valores**, usando los **SHAP values** como medida de impacto.

* En el eje **X** se representa el valor real de la **feature**.
* En el eje **Y** se representa el **SHAP value** de esa feature, es decir, cu√°nto aporta (positivo o negativo) al resultado del modelo.
* Cada punto es una observaci√≥n del dataset (una fila).

üëâ La interpretaci√≥n es intuitiva:

* **Si los SHAP values son positivos** ‚Üí esa variable aumenta la probabilidad/predicci√≥n del modelo.
* **Si los SHAP values son negativos** ‚Üí esa variable reduce la predicci√≥n.

---

## üîπ Caracter√≠sticas principales

1. **Relaci√≥n variable-predicci√≥n**: muestra c√≥mo los cambios en una feature modifican la salida del modelo.
2. **No linealidad**: a diferencia de modelos lineales, se pueden observar curvas, umbrales y patrones complejos.
3. **Coloraci√≥n opcional**: muchas veces los puntos se colorean por otra feature correlacionada, lo que ayuda a descubrir **interacciones entre variables**.

---

## üîπ Ejemplo pr√°ctico

Si analizamos un modelo de riesgo de cr√©dito y hacemos un dependence plot de la variable **‚Äúingresos‚Äù**:

* Eje X ‚Üí valores de ingresos de los clientes.
* Eje Y ‚Üí SHAP values de ingresos.
* Si observamos que **a bajos ingresos los SHAP values son positivos**, significa que bajos ingresos **aumentan la probabilidad de default** en la predicci√≥n del modelo.

---

‚úÖ Resumen:
Un **Dependence Plot** con SHAP es como una **‚Äúcurva de efecto‚Äù** que explica c√≥mo el modelo utiliza una variable para tomar decisiones, revelando patrones e interacciones que un simple ranking de importancia no muestra.

---

In [None]:
# Dependence plot de la feature m√°s importante
top_feat_idx = order[0]
if hasattr(X_test, "iloc"):
    x_vals = X_test.iloc[:, top_feat_idx].to_numpy()
else:
    x_vals = X_test[:, top_feat_idx]

plt.figure(figsize=(6,5))
plt.scatter(x_vals, shap_values[:, top_feat_idx], s=12, alpha=0.6)
plt.xlabel(feature_names[top_feat_idx])
plt.ylabel("SHAP value")
plt.title(f"Dependence plot (SHAP) - {feature_names[top_feat_idx]}")
plt.tight_layout()
plt.show()

---

## 5. Preguntas de Discusi√≥n

### 1. ¬øQu√© ventajas ofrece XGBoost frente a modelos lineales en datos tabulares?

* **Relaciones no lineales:** mientras que los modelos lineales (como regresi√≥n log√≠stica) asumen una relaci√≥n lineal entre variables y resultado, XGBoost puede capturar interacciones complejas y no lineales.
* **Ingenier√≠a de caracter√≠sticas impl√≠cita:** los √°rboles crean autom√°ticamente combinaciones y umbrales de variables, sin necesidad de transformar mucho los datos de entrada.
* **Manejo de valores at√≠picos y escalamiento:** no requiere normalizaci√≥n y es m√°s robusto frente a outliers.
* **Regularizaci√≥n incorporada:** incluye par√°metros de penalizaci√≥n (`lambda`, `alpha`) para controlar la complejidad y reducir el riesgo de sobreajuste.
* **Escalabilidad y velocidad:** est√° optimizado en C++ con paralelizaci√≥n y t√©cnicas como ‚Äútree boosting‚Äù y ‚Äúcolumn block structure‚Äù, lo que lo hace muy eficiente para datasets grandes.
* **Importancia de variables y explicabilidad:** provee m√©tricas de importancia y puede complementarse f√°cilmente con SHAP values para interpretar los modelos.

---

### 2. ¬øC√≥mo influye el hiperpar√°metro `max_depth` en el overfitting?

* `max_depth` controla la **profundidad m√°xima de los √°rboles** en el ensemble.
* **Profundidad baja (ej. 2‚Äì4):**

  * Los √°rboles son simples, con menor riesgo de sobreajuste.
  * El modelo puede quedarse corto y subestimar patrones (underfitting).
* **Profundidad alta (ej. 8‚Äì15):**

  * Los √°rboles capturan muchos detalles, incluso ruido.
  * Aumenta el riesgo de overfitting, sobre todo en datasets peque√±os o con ruido.
* En la pr√°ctica:

  * Se combina con otros par√°metros (`min_child_weight`, `subsample`, `colsample_bytree`) para equilibrar sesgo y varianza.
  * Lo habitual en datos tabulares est√° entre 3 y 6.

---

### 3. ¬øQu√© m√©tricas usar√≠as en un banco para evaluar un modelo de default?

En problemas de riesgo crediticio, el costo de un error no es sim√©trico: **dar cr√©dito a alguien que incumple es mucho m√°s costoso** que rechazar un buen cliente. Por eso se usan varias m√©tricas:

* **AUC-ROC:** mide la capacidad discriminativa del modelo para separar ‚Äúdefault‚Äù de ‚Äúno default‚Äù.
* **Gini coefficient:** derivado del AUC, muy usado en la industria bancaria para evaluar modelos de scoring.
* **KS Statistic (Kolmogorov‚ÄìSmirnov):** mide la separaci√≥n entre las distribuciones de score de clientes buenos y malos.
* **Precision-Recall (AUC-PR):** √∫til cuando hay desbalance (pocos clientes en default).
* **Matriz de confusi√≥n y m√©tricas asociadas:**

  * **Recall (sensibilidad):** minimizar falsos negativos (detectar la mayor√≠a de los defaulters).
  * **Precision:** evitar marcar como defaulters a demasiados buenos clientes.
* **M√©tricas de negocio/costo:** cada banco puede definir un ‚Äúexpected loss‚Äù o funci√≥n de costos que penaliza m√°s los falsos negativos que los falsos positivos.

---
