<a href="https://colab.research.google.com/github/LinaMariaCastro/curso-ia-para-economia/blob/main/clases/5_Aprendizaje_supervisado/5_Ensamble.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Inteligencia Artificial con Aplicaciones en Econom√≠a I**

- üë©‚Äçüè´ **Profesora:** [Lina Mar√≠a Castro](https://www.linkedin.com/in/lina-maria-castro)  
- üìß **Email:** [lmcastroco@gmail.com](mailto:lmcastroco@gmail.com)  
- üéì **Universidad:** Universidad Externado de Colombia - Facultad de Econom√≠a

# ü•¶ü§ù **M√©todos de Ensamble: Random Forest y Gradient Boosting**

**Objetivos de Aprendizaje**

Al finalizar este notebook, ser√°s capaz de:

1.  **Explicar la intuici√≥n** detr√°s de los m√©todos de ensamble como Random Forest (Bagging) y Gradient Boosting (Boosting).
2.  **Implementar y comparar** modelos de ensamble con un modelo base (√Årbol de Decisi√≥n) utilizando `scikit-learn`.
3.  **Aplicar** el uso de m√©tricas avanzadas como la Curva ROC y el AUC en contextos con clases desbalanceadas, como el riesgo crediticio.
4. **Demostrar** de forma r√°pida y directa c√≥mo cambia el rendimiento de cada modelo en el set de prueba.
5.  **Extraer** la importancia de las variables (`feature importance`).

**Introducci√≥n: La Sabidur√≠a del Comit√©**

Hasta ahora, hemos entrenado modelos de forma individual. Un √°rbol de decisi√≥n, una regresi√≥n log√≠stica, una regresi√≥n lineal, etc. Pero, ¬øqu√© pasar√≠a si en lugar de confiar en la opini√≥n de un solo "experto" (un modelo), creamos un comit√© de expertos y basamos nuestra decisi√≥n en su sabidur√≠a colectiva?

Esta es la idea central detr√°s de los **m√©todos de ensamble**. Combinan m√∫ltiples modelos, a menudo llamados "aprendices d√©biles", para crear un "aprendiz fuerte" mucho m√°s robusto, preciso y menos propenso al sobreajuste.

**Analog√≠a**

* **Random Forest (Bagging):** Imagina un **comit√© de inversi√≥n diverso**. En lugar de confiar en un solo analista estrella (un √∫nico √°rbol de decisi√≥n), el portafolio se beneficia de las opiniones diversas y no correlacionadas de muchos analistas. Cada analista recibe una muestra ligeramente diferente de la informaci√≥n disponible. Incluso si algunos se equivocan, el **promedio del comit√© es mucho m√°s estable y acertado**.

* **Gradient Boosting (Boosting):** Piensa en un **programa de mentor√≠a para analistas de riesgo**. El primer analista (modelo 1) eval√∫a una solicitud de cr√©dito y comete algunos errores. Un analista senior o mentor (modelo 2) revisa esos errores y aprende a identificarlos. Luego, un tercer analista (modelo 3) se enfoca en los errores que cometieron los dos primeros. Este proceso secuencial de **aprender de los errores anteriores** crea un pron√≥stico final muy refinado y preciso.

**IMPORTANTE:**

- Ambos resuelven tanto problemas de regresi√≥n como de clasificaci√≥n (vamos a ver un ejemplo de clasificaci√≥n y en el taller van a trabajar un ejemplo de regresi√≥n).

## 1. Preparaci√≥n del Entorno y Datos

In [None]:
# Importaci√≥n de librer√≠as est√°ndar
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# M√≥dulos de Scikit-Learn para modelado y evaluaci√≥n
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix, roc_curve, auc, precision_recall_curve

### Mejorar visualizaci√≥n de dataframes y gr√°ficos

In [None]:
# Que muestre todas las columnas
pd.options.display.max_columns = None
# En los dataframes, mostrar los float con dos decimales
pd.options.display.float_format = '{:,.2f}'.format

# Configuraciones para una mejor visualizaci√≥n
sns.set(style='whitegrid')
plt.rcParams['figure.figsize'] = (10, 6)

### Carga y Limpieza de Datos

Usaremos el dataset **German Credit Data** (https://archive.ics.uci.edu/dataset/144/statlog+german+credit+data), el cual contiene informaci√≥n sobre 1000 solicitantes de cr√©dito. El conjunto de datos incluye a individuos a quienes efectivamente se les otorg√≥ un cr√©dito. No contiene informaci√≥n sobre los solicitantes que fueron rechazados.

Para cada uno de estos 1000 individuos, el banco ya realiz√≥ una clasificaci√≥n de riesgo a posteriori, es decir, despu√©s de observar su comportamiento de pago. **La columna objetivo es Risk (o 'Riesgo')** indica si, con el tiempo, el cliente result√≥ ser un buen pagador (cumpli√≥ con sus obligaciones) o un mal pagador (incurri√≥ en impago o default).

Por lo tanto, el objetivo de un modelo entrenado con estos datos no es decidir si se aprueba o no un cr√©dito (ya que todos fueron aprobados), sino predecir, en el momento de la solicitud, la probabilidad de que un cliente aprobado se convierta en un mal pagador en el futuro.

El dataset original de la UCI no tiene nombres de columna y las variables categ√≥ricas necesitan ser procesadas.

In [None]:
# Cargar el dataset desde una URL p√∫blica
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/german.data'
# Los nombres de las columnas se encuentran en la documentaci√≥n del dataset
columns = ['Estado de la cuenta corriente existente', 'Duraci√≥n en meses', 'Historia de cr√©dito', 'Prop√≥sito',
           'Monto del cr√©dito',
           'Cuenta de ahorros/bonos', 'Empleo actual desde',
           'Tasa de pago a plazos en porcentaje del ingreso disponible',
           'Estado personal y sexo', 'Otros deudores/fiadores', 'Residencia actual desde', 'Propiedad',
           'Edad', 'Otros planes de pago', 'Alojamiento', 'N√∫mero de cr√©ditos existentes en este banco',
           'Trabajo', 'N√∫mero de personas obligadas a prestar manutenci√≥n a', 'Tel√©fono', 'Trabajador extranjero',
           'Riesgo']

df = pd.read_csv(url, sep=' ', header=None, names=columns)

# Vistazo inicial a los datos
print("Dimensiones del dataset:", df.shape)
df.head()

In [None]:
# Cargar el dataset desde una URL p√∫blica
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/german.data'
# Los nombres de las columnas se encuentran en la documentaci√≥n del dataset
columns = ['Estado de la cuenta corriente existente', 'Duraci√≥n en meses', 'Historia de cr√©dito', 'Prop√≥sito',
           'Monto del cr√©dito',
           'Cuenta de ahorros/bonos', 'Empleo actual desde',
           'Tasa de pago a plazos en porcentaje del ingreso disponible',
           'Estado personal y sexo', 'Otros deudores/fiadores', 'Residencia actual desde', 'Propiedad',
           'Edad', 'Otros planes de pago', 'Alojamiento', 'N√∫mero de cr√©ditos existentes en este banco',
           'Trabajo', 'N√∫mero de personas obligadas a prestar manutenci√≥n a', 'Tel√©fono', 'Trabajador extranjero',
           'Riesgo']

df = pd.read_csv(url, sep=' ', header=None, names=columns)

# Vistazo inicial a los datos
print("Dimensiones del dataset:", df.shape)
df.head()

In [None]:
# --- 1. Definici√≥n de los Diccionarios de Mapeo ---

# Atributo 1: Estado de la cuenta corriente existente
estado_cuenta_corriente_map = {
    'A11': 'Menos de 0 DM',
    'A12': 'Entre 0 y 200 DM',
    'A13': 'M√°s de 200 DM / Salario asignado',
    'A14': 'Sin cuenta corriente'
}

# Atributo 3: Historial crediticio
historial_crediticio_map = {
    'A30': 'Sin cr√©ditos / Todos pagados',
    'A31': 'Todos los cr√©ditos en este banco pagados',
    'A32': 'Cr√©ditos existentes pagados hasta ahora',
    'A33': 'Retraso en pagos en el pasado',
    'A34': 'Cuenta cr√≠tica / Otros cr√©ditos'
}

# Atributo 4: Prop√≥sito del cr√©dito
proposito_map = {
    'A40': 'Autom√≥vil (nuevo)',
    'A41': 'Autom√≥vil (usado)',
    'A42': 'Muebles / Equipo',
    'A43': 'Radio / Televisi√≥n',
    'A44': 'Electrodom√©sticos',
    'A45': 'Reparaciones',
    'A46': 'Educaci√≥n',
    'A48': 'Reciclaje',
    'A49': 'Negocios',
    'A410': 'Otros'
}

# Atributo 6: Cuenta de ahorros/bonos
cuenta_ahorros_map = {
    'A61': 'Menos de 100 DM',
    'A62': 'Entre 100 y 500 DM',
    'A63': 'Entre 500 y 1000 DM',
    'A64': 'M√°s de 1000 DM',
    'A65': 'Desconocido / Sin cuenta'
}

# Atributo 7: Empleo actual desde
empleo_actual_map = {
    'A71': 'Desempleado',
    'A72': 'Menos de 1 a√±o',
    'A73': 'Entre 1 y 4 a√±os',
    'A74': 'Entre 4 y 7 a√±os',
    'A75': 'M√°s de 7 a√±os'
}

# Atributo 9: Estado civil y sexo
estado_civil_sexo_map = {
    'A91': 'Hombre: divorciado/separado',
    'A92': 'Mujer: divorciada/separada/casada',
    'A93': 'Hombre: soltero',
    'A94': 'Hombre: casado/viudo',
    'A95': 'Mujer: soltera'
}

# Atributo 10: Otros deudores/fiadores
otros_deudores_map = {
    'A101': 'Ninguno',
    'A102': 'Co-solicitante',
    'A103': 'Garante'
}

# Atributo 12: Propiedad
propiedad_map = {
    'A121': 'Bienes inmuebles',
    'A122': 'Seguro de vida / Ahorro para vivienda',
    'A123': 'Autom√≥vil u otro',
    'A124': 'Desconocido / Sin propiedad'
}

# Atributo 14: Otros planes de pago
otros_planes_pago_map = {
    'A141': 'Banco',
    'A142': 'Tiendas',
    'A143': 'Ninguno'
}

# Atributo 15: Alojamiento
vivienda_map = {
    'A151': 'Alquiler',
    'A152': 'Propia',
    'A153': 'Gratuita'
}

# Atributo 17: Trabajo
empleo_map = {
    'A171': 'Desempleado / No cualificado - no residente',
    'A172': 'No cualificado - residente',
    'A173': 'Empleado cualificado / Funcionario',
    'A174': 'Directivo / Aut√≥nomo / Altamente cualificado'
}

# Atributo 19: Tel√©fono
telefono_map = {
    'A191': 'No tiene',
    'A192': 'S√≠, a su nombre'
}

# Atributo 20: trabajador extranjero
trabajador_extranjero_map = {
    'A201': 'S√≠',
    'A202': 'No'
}

# --- 2. Aplicaci√≥n de los Mapeos al DataFrame ---
# Se aplica el mapeo a cada columna usando los nombres en espa√±ol
df['Estado de la cuenta corriente existente'] = df['Estado de la cuenta corriente existente'].map(estado_cuenta_corriente_map)
df['Historia de cr√©dito'] = df['Historia de cr√©dito'].map(historial_crediticio_map)
df['Prop√≥sito'] = df['Prop√≥sito'].map(proposito_map)
df['Cuenta de ahorros/bonos'] = df['Cuenta de ahorros/bonos'].map(cuenta_ahorros_map)
df['Empleo actual desde'] = df['Empleo actual desde'].map(empleo_actual_map)
df['Estado personal y sexo'] = df['Estado personal y sexo'].map(estado_civil_sexo_map)
df['Otros deudores/fiadores'] = df['Otros deudores/fiadores'].map(otros_deudores_map)
df['Propiedad'] = df['Propiedad'].map(propiedad_map)
df['Otros planes de pago'] = df['Otros planes de pago'].map(otros_planes_pago_map)
df['Alojamiento'] = df['Alojamiento'].map(vivienda_map)
df['Trabajo'] = df['Trabajo'].map(empleo_map)
df['Tel√©fono'] = df['Tel√©fono'].map(telefono_map)
df['Trabajador extranjero'] = df['Trabajador extranjero'].map(trabajador_extranjero_map)

# --- 3. Verificaci√≥n de los Resultados ---
print("DataFrame con valores reemplazados y columnas en espa√±ol:")
display(df.head(3))

In [None]:
df.info()

La variable objetivo 'riesgo' est√° codificada como 1 (Bueno) y 2 (Malo). La convertiremos a 0 (Bueno) y 1 (Malo) para que la clase "positiva" sea el evento de inter√©s (el impago).

- **0 = Buen pagador**
- **1 = Mal pagador**

In [None]:
# Usamos .map() para la recodificaci√≥n
df['Riesgo'] = df['Riesgo'].map({1: 0, 2: 1})

print("Distribuci√≥n de la variable objetivo 'Riesgo':")
print(df['Riesgo'].value_counts(normalize=True))

Vemos un desbalance: 70% de los clientes son buenos pagadores y 30% son malos pagadores. Este **desbalance de clases**, aunque no es extremo, ya nos indica que la simple precisi√≥n (accuracy) no es la mejor m√©trica.

## Preprocesamiento

Vamos a convertir variables categ√≥ricas en num√©ricas usando One-Hot Encoding

In [None]:
# --- PASO 1: Separar X e y ---
# X contiene TODAS las variables predictoras, tanto num√©ricas como categ√≥ricas
X = df.drop('Riesgo', axis=1)
y = df['Riesgo']

# --- PASO 2: Divisi√≥n en train y test ---
# Esto es crucial para evitar data leakage. El encoder solo debe "ver" los datos de entrenamiento.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)
print("Forma de X_train original:", X_train.shape)
print("Forma de X_test original:", X_test.shape)

# --- PASO 3: Identificar columnas y crear el preprocesador ---

# Identificamos autom√°ticamente las columnas num√©ricas y categ√≥ricas desde X_train
numerical_features = X_train.select_dtypes(include=np.number).columns
categorical_features = X_train.select_dtypes(include=['object', 'category']).columns

# Crear el transformador para las variables categ√≥ricas
categorical_transformer = OneHotEncoder(handle_unknown='ignore', drop='first')

# Crear el ColumnTransformer
# 'passthrough' indica que las columnas num√©ricas no deben ser modificadas
# En √°rboles de decisi√≥n, random forest o boosting no es necesario estandarizar las variables num√©ricas,
# pero hacerlo, tampoco es perjudicial
preprocessor = ColumnTransformer(
    transformers=[
        ('cat', categorical_transformer, categorical_features),
        ('num', 'passthrough', numerical_features)
    ],
    remainder='passthrough' # Por si alguna columna no fue listada, se le indica que no le haga nada
)

# --- PASO 4: Aplicar el preprocesador ---

# "Aprender" (fit) las categor√≠as SOLO de X_train y transformar X_train
X_train = preprocessor.fit_transform(X_train)

# Usar el preprocesador ya "aprendido" para transformar X_test
X_test = preprocessor.transform(X_test)

# --- Verificaci√≥n de resultados ---
print("\nForma de X_train procesado:", X_train.shape)
print("Forma de X_test procesado:", X_test.shape)

## 2. Modelo Base: Un Solo √Årbol de Decisi√≥n

Antes de construir un "bosque", entendamos el rendimiento de un solo "√°rbol". Este ser√° nuestro punto de comparaci√≥n para ver si la complejidad de los ensambles realmente aporta valor.

In [None]:
# Inicializar y entrenar el √Årbol de Decisi√≥n
tree_model = DecisionTreeClassifier(random_state=42, max_depth=20) # Limitamos la profundidad para evitar sobreajuste extremo
tree_model.fit(X_train, y_train)

# Predecir en el conjunto de prueba
y_pred_tree = tree_model.predict(X_test)

# Visualizar la matriz de confusi√≥n
cm_tree = confusion_matrix(y_test, y_pred_tree)
sns.heatmap(cm_tree, annot=True, fmt='d', cmap='Blues',
            xticklabels=['Predicci√≥n 0 (Bueno)', 'Predicci√≥n 1 (Malo)'],
            yticklabels=['Real 0 (Bueno)', 'Real 1 (Malo)'])
plt.ylabel('Valor Real')
plt.xlabel('Valor Predicho')
plt.title('Matriz de Confusi√≥n √Årbol de Decisi√≥n')
plt.show()

# Evaluar el modelo
print("Evaluaci√≥n del √Årbol de Decisi√≥n:")
print(f"Accuracy: {accuracy_score(y_test, y_pred_tree):.3f}")
print("\nClassification Report:")
print(classification_report(y_test, y_pred_tree))

**Interpretaci√≥n:**

El √°rbol √∫nico tiene una `exactitud` del 64%. Sin embargo, miremos m√°s de cerca el `recall` para la clase 1 (mal pagador): es solo de 0.42. Esto significa que **nuestro modelo solo est√° identificando al 42% de los clientes que realmente van a incumplir**. Para un banco, ¬°esto es muy riesgoso! Estamos dejando pasar a m√°s de la mitad de los malos clientes.

La `precisi√≥n` tambi√©n es baja. De los que el modelo predijo que eran malos pagadores, solo 40% son realmente malos pagadores.



## 3. Random Forest: La Sabidur√≠a de la Multitud üå≥üå≥üå≥

Hasta ahora, hemos usado un solo √Årbol de Decisi√≥n. Siguiendo nuestra analog√≠a, esto es como confiar en el juicio de un √∫nico "analista estrella". ¬øPero qu√© pasa si ese analista tiene un sesgo particular o se ha sobreajustado a una mala racha del mercado? Su modelo ser√° inestable y poco fiable.

**Random Forest (Bosque Aleatorio)** propone una soluci√≥n mucho m√°s robusta, basada en el principio de "la sabidur√≠a de la multitud".

En lugar de confiar en un solo analista, vamos a crear un comit√© de inversi√≥n diverso con, por ejemplo, 300 analistas (√°rboles). La decisi√≥n final no la tomar√° uno solo, sino que ser√° el promedio o la votaci√≥n de todo el comit√©.

Para que este comit√© funcione, necesitamos dos cosas:

- Competencia: Cada analista (√°rbol) debe ser razonablemente bueno (mejor que adivinar al azar).

- Diversidad: Los analistas no deben cometer los mismos errores. Sus opiniones deben ser no correlacionadas. Si todos piensan igual, el comit√© es in√∫til.

Random Forest logra esta diversidad de forma brillante usando dos t√©cnicas de aleatorizaci√≥n:

1. **Aleatorizaci√≥n de Datos (Bagging)**

No le damos a todos los analistas exactamente los mismos datos hist√≥ricos. En lugar de eso, a cada uno de los 300 √°rboles le damos una muestra aleatoria del conjunto de entrenamiento.

Esta t√©cnica se llama Bagging. Para un dataset de 800 clientes de entrenamiento, cada √°rbol recibir√° una muestra de 800 clientes elegidos con reemplazo. Esto significa que la muestra de cada √°rbol ser√° ligeramente diferente: algunas contendr√°n clientes repetidos y otras omitir√°n algunos clientes por completo.

Esto asegura que cada √°rbol tenga una "visi√≥n" del mundo ligeramente distinta, evitando que todos aprendan exactamente los mismos patrones.

2. **Aleatorizaci√≥n de Variables (Features)**

Si hay una variable muy predictiva (ej. historial_credito), todos los √°rboles tender√≠an a usarla como su primera pregunta. Esto har√≠a que todos los √°rboles fueran muy similares y sus errores estar√≠an correlacionados.

Para evitar esto, Random Forest a√±ade una segunda capa de aleatoriedad: en cada paso de divisi√≥n de un √°rbol, no le permite ver todas las variables. Solo le da un subconjunto aleatorio de ellas (ej. "solo puedes elegir entre 'edad', 'prop√≥sito' y 'ahorros' para esta decisi√≥n").

Esto fuerza a los √°rboles a explorar otras variables y encontrar patrones diferentes. Un √°rbol podr√≠a descubrir un patr√≥n en la 'edad' y otro en el 'monto_credito', haciendo que el comit√© en su conjunto sea mucho m√°s diverso y sabio.

**¬øC√≥mo Funciona el Modelo?**

- Se construyen n_estimators (ej. 300 √°rboles de decisi√≥n).

  - Cada √°rbol se entrena con una muestra (Bagging).
  - En cada divisi√≥n de cada √°rbol, solo se considera un subconjunto aleatorio de max_features (variables).

- Predicci√≥n (Votaci√≥n):

  - Para un nuevo cliente, se le pasa su informaci√≥n a los 300 √°rboles.
  - Cada √°rbol da su predicci√≥n (ej. 70 √°rboles votan "Riesgo 0" y 30 √°rboles votan "Riesgo 1").
  - La predicci√≥n final del bosque es la clase m√°s votada ("Riesgo 0"). Si es un problema de regresi√≥n, entonces la predicci√≥n final corresponde al promedio.

**La ventaja principal del Random Forest es que reduce el sobreajuste (overfitting).** Los errores de un √°rbol individual (que se sobreajusta) se promedian y cancelan con los errores de los dem√°s. El "promedio del comit√©" es mucho m√°s estable que un solo √°rbol de decisi√≥n.


Ahora, en lugar de un solo √°rbol, vamos a crear un bosque de 300 √°rboles.

In [None]:
# Inicializar y entrenar el Random Forest
rf_model = RandomForestClassifier(n_estimators=300, random_state=42, max_depth=20, n_jobs=-1) # n_jobs=-1 usa todos los procesadores del computador
rf_model.fit(X_train, y_train)

# Predecir en el conjunto de prueba
y_pred_rf = rf_model.predict(X_test)

# Visualizar la matriz de confusi√≥n
cm_rf = confusion_matrix(y_test, y_pred_rf)
sns.heatmap(cm_rf, annot=True, fmt='d', cmap='Blues',
            xticklabels=['Predicci√≥n 0 (Bueno)', 'Predicci√≥n 1 (Malo)'],
            yticklabels=['Real 0 (Bueno)', 'Real 1 (Malo)'])
plt.ylabel('Valor Real')
plt.xlabel('Valor Predicho')
plt.title('Matriz de Confusi√≥n Random Forest')
plt.show()

# Evaluar el modelo
print("Evaluaci√≥n del Random Forest:")
print(f"Accuracy: {accuracy_score(y_test, y_pred_rf):.3f}")
print("\nClassification Report:")
print(classification_report(y_test, y_pred_rf))

**Interpretaci√≥n:** ¬°Mejoramos! La `exactitud` subi√≥ al 78%. M√°s importante a√∫n, el `recall` para la clase 1 (mal pagador) mejor√≥ a 45% y la `precisi√≥n` subi√≥ de forma importante a 71%.

## 4. Gradient Boosting: Aprendiendo de los Errores üë®‚Äçüè´

Si Random Forest es un "comit√© democr√°tico" que vota en paralelo, Gradient Boosting es un "programa de mentor√≠a" jer√°rquico que aprende de forma secuencial.

La intuici√≥n central de Gradient Boosting es aprender de los errores. En lugar de construir 300 modelos independientes, construimos un modelo a la vez, donde cada nuevo modelo se dedica a corregir los errores que cometi√≥ el anterior.

1. Se entrena un primer √°rbol de decisi√≥n simple (ej. max_depth=3). Este √°rbol hace una predicci√≥n inicial sobre la variable objetivo (ser buen o mal pagador en este caso).

2. Se calcula el error que este √°rbol comete para cada cliente (Error1 = Dato Real - Predicci√≥n(√Årbol 1)).

3. Se entrena un segundo √°rbol, cuya variable objetivo es el error que cometi√≥ el √Årbol 1 (Error1). Las variables (features) son las mismas del modelo original (Edad, Deuda, ...).

4. Se calcula una nueva predicci√≥n: Predicci√≥n combinada = Predicci√≥n(√Årbol 1) + Predicci√≥n(√Årbol 2). De esta forma, la predicci√≥n se va acercando m√°s al valor real.

5. Se calculan los errores de la predicci√≥n combinada (Error2 = Dato Real - Predicci√≥n Combinada).

6. Se entrena un tercer √°rbol cuya variable objetivo es el error de la predicci√≥n combinada (Error2).

Este proceso se repite 'n_estimators' veces. Cada nuevo √°rbol se enfoca en los casos m√°s dif√≠ciles que el "comit√©" anterior no pudo resolver, refinando la predicci√≥n paso a paso hasta que los errores son m√≠nimos.

El Hiperpar√°metro Clave:

**Tasa de Aprendizaje (learning_rate):** controla la magnitud de la correcci√≥n.

En lugar de sumar la predicci√≥n completa:

Predicci√≥n combinada = Predicci√≥n(√Årbol 1) + Predicci√≥n(√Årbol 2)

Se hace una correcci√≥n m√°s cautelosa:

Predicci√≥n combinada = Predicci√≥n(√Årbol 1) + learning_rate * Predicci√≥n(√Årbol 2)

Un 'learning_rate' bajo significa que cada √°rbol hace una correcci√≥n peque√±a y sutil. Esto evita que el modelo corrija en exceso (sobreajuste) y le permite encontrar un resultado √≥ptimo de forma m√°s estable.

**La principal ventaja de Gradient Boosting es que al enfocarse secuencialmente en los errores, puede alcanzar un rendimiento predictivo extremadamente alto.** Suele ser uno de los mejores algoritmos para datos tabulares (como los que usamos en finanzas y econom√≠a).

La implementaci√≥n m√°s famosa y exitosa de este m√©todo es **XGBoost (Extreme Gradient Boosting)**, conocida por su eficiencia y por ganar innumerables competencias de ciencia de datos.

Desventajas:

- Requiere un ajuste cuidadoso de hiperpar√°metros para evitar el sobreajuste.

- A diferencia de Random Forest, no se puede paralelizar (n_jobs=-1 no sirve de mucho), ya que cada √°rbol depende del resultado del anterior.



El √°rbol de decisi√≥n y el random forest ten√≠an una profundidad de 20, sin embargo, en Gradient Boosting se utilizan modelos sencillos (llamados 'd√©biles'), que son poco profundos, as√≠ que vamos a utilizar una profundidad de 3. Adicionalmente, vamos a decirle que construya 100 √°rboles (o que itere 100 veces).

In [None]:
# Inicializar y entrenar el Gradient Boosting
gb_model = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)
gb_model.fit(X_train, y_train)

# Predecir en el conjunto de prueba
y_pred_gb = gb_model.predict(X_test)

# Visualizar la matriz de confusi√≥n
cm_gb = confusion_matrix(y_test, y_pred_gb)
sns.heatmap(cm_gb, annot=True, fmt='d', cmap='Blues',
            xticklabels=['Predicci√≥n 0 (Bueno)', 'Predicci√≥n 1 (Malo)'],
            yticklabels=['Real 0 (Bueno)', 'Real 1 (Malo)'])
plt.ylabel('Valor Real')
plt.xlabel('Valor Predicho')
plt.title('Matriz de Confusi√≥n √Årbol de Decisi√≥n')
plt.show()

# Evaluar el modelo
print("Evaluaci√≥n de Gradient Boosting:")
print(f"Accuracy: {accuracy_score(y_test, y_pred_gb):.3f}")
print("\nClassification Report:")
print(classification_report(y_test, y_pred_gb))

**Interpretaci√≥n:** Los resultados son a√∫n mejores. La `exactitud` es del 80% y el `recall` para la clase 1 (mal riesgo) subi√≥ a **0.57**. ¬°Ahora estamos identificando al 57% de los malos clientes! La `precisi√≥n` baj√≥ de 0.71 a 0.69, pero el f1-score subi√≥ de 0,7 a 0.74.

## 5. M√©tricas de Desempe√±o

Como vimos, la exactitud (accuracy) no nos cuenta toda la historia, especialmente con clases desbalanceadas. Un banco podr√≠a preferir un modelo que identifique a m√°s clientes de alto riesgo (mayor `recall`), incluso si eso significa clasificar err√≥neamente a algunos buenos clientes como malos (menor `precision`).

La **Curva ROC (Receiver Operating Characteristic)** nos ayuda a visualizar este trade-off.

**¬øQu√© es la Curva ROC?**

* **Eje Y (Tasa de Verdaderos Positivos / Recall):** ¬øQu√© proporci√≥n de los malos clientes reales identificamos correctamente?
* **Eje X (Tasa de Falsos Positivos):** ¬øQu√© proporci√≥n de los buenos clientes identificamos incorrectamente como malos?

Un modelo ideal estar√≠a en la esquina superior izquierda (100% de Verdaderos Positivos, 0% de Falsos Positivos). La l√≠nea diagonal representa un modelo que adivina al azar. Queremos que nuestra curva est√© lo m√°s lejos posible de esa l√≠nea.

El **√Årea Bajo la Curva (AUC)** resume esta gr√°fica en un solo n√∫mero. Un AUC de 0.5 es azar y un AUC de 1.0 es un modelo perfecto. Mide la habilidad del modelo para distinguir entre un cliente bueno y uno malo.

In [None]:
# Obtener las probabilidades de predicci√≥n para la clase positiva (riesgo=1)
y_prob_tree = tree_model.predict_proba(X_test)[:, 1]
y_prob_rf = rf_model.predict_proba(X_test)[:, 1]
y_prob_gb = gb_model.predict_proba(X_test)[:, 1]

# Calcular FPR, TPR y AUC para cada modelo
fpr_tree, tpr_tree, _ = roc_curve(y_test, y_prob_tree)
auc_tree = auc(fpr_tree, tpr_tree)

fpr_rf, tpr_rf, _ = roc_curve(y_test, y_prob_rf)
auc_rf = auc(fpr_rf, tpr_rf)

fpr_gb, tpr_gb, _ = roc_curve(y_test, y_prob_gb)
auc_gb = auc(fpr_gb, tpr_gb)

# Graficar las Curvas ROC
plt.figure(figsize=(10, 8))
plt.plot(fpr_tree, tpr_tree, label=f'√Årbol de Decisi√≥n (AUC = {auc_tree:.3f})')
plt.plot(fpr_rf, tpr_rf, label=f'Random Forest (AUC = {auc_rf:.3f})')
plt.plot(fpr_gb, tpr_gb, label=f'Gradient Boosting (AUC = {auc_gb:.3f})')
plt.plot([0, 1], [0, 1], 'k--', label='Clasificador Aleatorio') # L√≠nea de azar
plt.xlabel('Tasa de Falsos Positivos')
plt.ylabel('Tasa de Verdaderos Positivos (Recall)')
plt.title('Curvas ROC para Modelos de Riesgo Crediticio')
plt.legend()
plt.show()

**Interpretaci√≥n de las Curvas ROC y AUC:**

El modelo de **Random Forest (AUC=0.796)** es mejor que el **Gradient Boosting (AUC=0.775)** y mucho mejor que el **√Årbol de Decisi√≥n (AUC=0.576)** para la tarea de *distinguir* entre clientes buenos y malos.

## 6. Del An√°lisis ROC a la Decisi√≥n de Negocio: Ajustando el Umbral

Ya hemos encontrado el modelo con mejor desempe√±o para nuestro caso: el Random Forest. Pero el paso final para que un modelo sea verdaderamente √∫til en un contexto econ√≥mico es alinear sus predicciones con un objetivo de negocio.

Por defecto, un modelo de clasificaci√≥n usa un umbral de 0.5 para decidir entre "Riesgo 0" y "Riesgo 1". Este umbral es arbitrario y casi nunca es el ideal.

Para nuestro banco, el costo de no detectar a un cliente de "mal riesgo" (un Falso Negativo) es mucho m√°s alto que el costo de verificar dos veces a un cliente bueno (un Falso Positivo).

Por lo tanto, no buscamos el umbral que da el mejor accuracy, sino el que cumple nuestro objetivo de negocio: **Capturar al menos el 80% de los clientes de mal riesgo (Recall = 0.8)**

En esta secci√≥n, usaremos los datos de la Curva ROC para encontrar el umbral de probabilidad exacto que cumple este objetivo. Luego, dejaremos de usar .predict() y aplicaremos este nuevo umbral para crear nuestro sistema de decisi√≥n final.

In [None]:
# --- Encontrar el umbral √≥ptimo para Random Forest ---

# Obtener las probabilidades de predicci√≥n para la clase positiva (riesgo=1)
y_prob_rf = rf_model.predict_proba(X_test)[:, 1]

# Calcular la curva ROC
# (tpr = True Positive Rate = Recall)
fpr_rf, tpr_rf, thresholds_rf = roc_curve(y_test, y_prob_rf)

# Definir nuestro objetivo de negocio
objetivo_recall = 0.80 # Por ejemplo, queremos un recall del 80%

# Encontrar el umbral que cumple nuestro objetivo
try:
    indice_objetivo_rf = np.argmax(tpr_rf >= objetivo_recall)
    umbral_elegido_rf = thresholds_rf[indice_objetivo_rf]
    costo_fpr_rf = fpr_rf[indice_objetivo_rf]
    recall_obtenido_rf = tpr_rf[indice_objetivo_rf]

    print(f"--- Decisi√≥n de Negocio (Random Forest) ---")
    print(f"Para alcanzar un Recall de al menos {objetivo_recall*100:.0f}% (obtuvimos {recall_obtenido_rf*100:.1f}%):")
    print(f"Debes usar un umbral de decisi√≥n de: {umbral_elegido_rf:.4f}")
    print(f"El costo ser√° una Tasa de Falsos Positivos de: {costo_fpr_rf*100:.1f}%\n")

except ValueError:
    print("El modelo Random Forest no alcanza el recall objetivo.")
    umbral_elegido_rf = 0.5 # Usar default si falla


# --- Aplicar el nuevo umbral a las predicciones ---

if 'umbral_elegido_rf' in locals():
    # Usamos el umbral que acabamos de encontrar
    predicciones_rf_umbral = (y_prob_rf >= umbral_elegido_rf).astype(int)

    # Evaluar el rendimiento con el nuevo umbral
    print(f"--- Reporte de Clasificaci√≥n (Umbral RF = {umbral_elegido_rf:.4f}) ---")
    print(classification_report(y_test, predicciones_rf_umbral))

    # Visualizar la matriz de confusi√≥n
    cm_rf_umbral = confusion_matrix(y_test, predicciones_rf_umbral)
    sns.heatmap(cm_rf_umbral, annot=True, fmt='d', cmap='Blues',
                xticklabels=['Predicci√≥n 0 (Bueno)', 'Predicci√≥n 1 (Malo)'],
                yticklabels=['Real 0 (Bueno)', 'Real 1 (Malo)'])
    plt.ylabel('Valor Real')
    plt.xlabel('Valor Predicho')
    plt.title('Matriz de Confusi√≥n RF con Umbral Personalizado')
    plt.show()

Esto tiene un trade-off (costo-beneficio): est√°s aceptando clasificar incorrectamente a m√°s clientes buenos (m√°s Falsos Positivos, bajando el recall de la clase 0) a cambio de capturar muchos m√°s clientes malos (m√°s Verdaderos Positivos, subiendo el recall de la clase 1).

## 7. Variables relevantes

Nuestros modelos de ensamble son muy precisos, pero a menudo se les critica por ser "cajas negras". Si no podemos explicar por qu√© un modelo toma una decisi√≥n, ¬øc√≥mo podemos confiar en √©l para decisiones econ√≥micas cr√≠ticas?

Afortunadamente, **los modelos basados en √°rboles nos ofrecen una poderosa herramienta para ganar interpretabilidad: la importancia de variables (atributo .feature_importances_).**

Este atributo nos muestra qu√© variables fueron las m√°s consultadas y decisivas para el "comit√©" de √°rboles al momento de clasificar el riesgo. Para el banco, esto es muy √∫til, ya que nos dice qu√© factores (ej. status_cuenta, duracion_mes) son los verdaderos impulsores del riesgo.

El siguiente c√≥digo extrae estas importancias de nuestro Random Forest, las conecta con los nombres de las variables ya procesadas (get_feature_names_out()) y grafica las 15 m√°s relevantes.

In [None]:
# Obtener los nombres de las variables
feature_names = preprocessor.get_feature_names_out()

# Obtener las importancias del modelo
rf_importances = rf_model.feature_importances_

# Crear un DataFrame para facilitar la visualizaci√≥n
rf_importance_df = pd.DataFrame({
    'Variable': feature_names,
    'Importancia': rf_importances
}).sort_values(by='Importancia', ascending=False)

# Graficar las 15 variables m√°s importantes
plt.figure(figsize=(12, 8))
sns.barplot(
    x='Importancia',
    y='Variable',
    data=rf_importance_df.head(15),
    palette='viridis'
)
plt.title('Top 15 Variables m√°s Importantes - Random Forest', fontsize=16)
plt.xlabel('Importancia (Gini)', fontsize=12)
plt.ylabel('Variable', fontsize=12)
plt.show()