# LABORATORIO: An√°lisis Comparativo de √Årboles de Decisi√≥n y M√©todos de Ensamblado en Campa√±as de Marketing Bancario

# Introducci√≥n al caso

En el contexto actual de digitalizaci√≥n financiera, los bancos buscan optimizar sus campa√±as de marketing directo para aumentar la tasa de conversi√≥n de sus productos. Este laboratorio simula el rol de un analista de datos en una instituci√≥n financiera que busca predecir si un cliente contratar√° un dep√≥sito a plazo fijo a partir de sus caracter√≠sticas personales, historial financiero y comportamiento previo con el banco.

Se utilizar√° el dataset Bank Marketing, proveniente de campa√±as telef√≥nicas reales realizadas en Portugal, y se pondr√° en pr√°ctica una comparaci√≥n entre modelos de √°rboles de decisi√≥n simples ydiferentes m√©todos de ensamblado.

# Objetivos del laboratorio

‚Ä¢ Preprocesar adecuadamente un conjunto de datos mixto (num√©rico y categ√≥rico).
‚Ä¢ Entrenar y comparar modelos de clasificaci√≥n basados en √°rboles de decisi√≥n y ensamblado.
‚Ä¢ Aplicar t√©cnicas de evaluaci√≥n apropiadas para contextos de desbalance de clases.
‚Ä¢ Interpretar los resultados obtenidos desde un enfoque t√©cnico y comercial.
‚Ä¢ Reflexionar sobre la aplicabilidad, limitaciones y √©tica del uso de modelos automatizados en
decisiones comerciales.

 # Preparacion de Datos

## Bank Marketing


The data is related with direct marketing campaigns (phone calls) of a Portuguese banking institution. The classification goal is to predict if the client will subscribe a term deposit (variable `y`).

In [None]:
# =============================
# 1. IMPORTACI√ìN DE LIBRER√çAS
# =============================
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from ucimlrepo import fetch_ucirepo
from sklearn.model_selection import train_test_split, StratifiedKFold, cross_val_score, GridSearchCV
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score, recall_score, f1_score, roc_auc_score
from sklearn.preprocessing import StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler, LabelEncoder
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier, AdaBoostClassifier, ExtraTreesClassifier
from sklearn.impute import SimpleImputer

import warnings
warnings.filterwarnings('ignore')




In [None]:
# ===========================================
# 2. CARGA DE DATOS
# ===========================================

# Cargar dataset desde ucirepo
# fetch dataset
bank_marketing = fetch_ucirepo(id=222)

# data (as pandas dataframes)
X = bank_marketing.data.features
y = bank_marketing.data.targets

df = pd.concat([X, y], axis=1)

# Ver distribuci√≥n de clases
print("\nDistribuci√≥n de clases (no = no se suscribe, yes = si se suscribe):")
print(df['y'].value_counts())
print("\n")
print(df['y'].value_counts(normalize=True))
print("\n\n")


# ===========================
# 4. PREPROCESAMIENTO
# ===========================

# Guardamos "y" como objetivo
y = df['y'].map({'no': 0, 'yes': 1})

# Eliminamos y del DataFrame para procesar solo caracter√≠sticas
X = df.drop(columns=['y'])

#En base al laboratorio anterior, Eliminamos por irrelevancia o sesgo predictivo:
#day_of_week: poco predictivo
#duration: muy predictiva pero solo se conoce despu√©s de llamar , por lo tanto, para un modelo realista, debe eliminarse

X = X.drop(columns=['day_of_week', 'duration'], errors='ignore')

# Identificamos las columnas categ√≥ricas
categorical_columns = X.select_dtypes(include=['object']).columns.tolist()

# Primero, vamos a manejar los valores NaN en columnas categ√≥ricas
# Podemos reemplazarlos con 'unknown' o la moda
for col in categorical_columns:
    X[col] = X[col].fillna('unknown')

# Aplicamos Label Encoding a todas las columnas categ√≥ricas
label_encoders = {}
for column in categorical_columns:
    le = LabelEncoder()
    X[column] = le.fit_transform(X[column])
    label_encoders[column] = le
    print(f"Mapeo para {column}: {dict(zip(le.classes_, le.transform(le.classes_)))}")

# Manejamos los valores NaN en columnas num√©ricas
numeric_columns = X.select_dtypes(include=['number']).columns.tolist()
imputer = SimpleImputer(strategy='median')
X[numeric_columns] = imputer.fit_transform(X[numeric_columns])

# Detectar autom√°ticamente las categ√≥ricas (ya excluimos 'y')
cat_vars = X.select_dtypes(include=['object']).columns.tolist()

# Definir el preprocesador
preprocessor = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(handle_unknown='ignore', sparse_output=False), cat_vars),
        # Puedes agregar escalado si lo necesitas m√°s adelante
    ],
    remainder='passthrough'  # deja pasar otras columnas sin cambios
)

# Aplicar transformaci√≥n
X_encoded = preprocessor.fit_transform(X)

# Estandarizar los datos: necesario porque las variables tienen diferentes escalas
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Divisi√≥n entrenamiento-prueba con estratificaci√≥n (mantiene proporci√≥n de clases)
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.2, stratify=y, random_state=42
)



Distribuci√≥n de clases (no = no se suscribe, yes = si se suscribe):
y
no     39922
yes     5289
Name: count, dtype: int64


y
no     0.883015
yes    0.116985
Name: proportion, dtype: float64



Mapeo para job: {'admin.': np.int64(0), 'blue-collar': np.int64(1), 'entrepreneur': np.int64(2), 'housemaid': np.int64(3), 'management': np.int64(4), 'retired': np.int64(5), 'self-employed': np.int64(6), 'services': np.int64(7), 'student': np.int64(8), 'technician': np.int64(9), 'unemployed': np.int64(10), 'unknown': np.int64(11)}
Mapeo para marital: {'divorced': np.int64(0), 'married': np.int64(1), 'single': np.int64(2)}
Mapeo para education: {'primary': np.int64(0), 'secondary': np.int64(1), 'tertiary': np.int64(2), 'unknown': np.int64(3)}
Mapeo para default: {'no': np.int64(0), 'yes': np.int64(1)}
Mapeo para housing: {'no': np.int64(0), 'yes': np.int64(1)}
Mapeo para loan: {'no': np.int64(0), 'yes': np.int64(1)}
Mapeo para contact: {'cellular': np.int64(0), 'telephone': np.int64(1), 'unknow

---

# Preguntas para desarrollo

## √Årboles de Decisi√≥n

### ¬øQu√© criterio de divisi√≥n (gini, entropy) ofrece mejor precisi√≥n, recall o F1-score en este caso?


In [None]:
# ==========================================
# üå≥ COMPARACI√ìN DE CRITERIOS DE DIVISI√ìN
# ==========================================

criterios = ['gini', 'entropy']
modelos = {}

print("\nüå≥ COMPARACI√ìN DE CRITERIOS DE DIVISI√ìN")
print("="*50)

for criterio in criterios:
    modelo = DecisionTreeClassifier(
        criterion=criterio,
        max_depth=8,
        min_samples_split=10,
        min_samples_leaf=5,
        random_state=42,
        class_weight='balanced'
    )

    modelo.fit(X_train, y_train)
    y_pred = modelo.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    recall = recall_score(y_test, y_pred, average='macro')

    modelos[criterio] = modelo

    print(f"üìä Criterio {criterio.upper()}:")
    print(f"   Precisi√≥n: {accuracy:.4f}")
    print(f"   Recall: {recall:.4f}")
    print(classification_report(y_test, y_pred, target_names=["no", "yes"]))
    print()


üå≥ COMPARACI√ìN DE CRITERIOS DE DIVISI√ìN
üìä Criterio GINI:
   Precisi√≥n: 0.8583
   Recall: 0.6923
              precision    recall  f1-score   support

          no       0.93      0.91      0.92      7985
         yes       0.41      0.48      0.44      1058

    accuracy                           0.86      9043
   macro avg       0.67      0.69      0.68      9043
weighted avg       0.87      0.86      0.86      9043


üìä Criterio ENTROPY:
   Precisi√≥n: 0.8628
   Recall: 0.6882
              precision    recall  f1-score   support

          no       0.93      0.92      0.92      7985
         yes       0.42      0.46      0.44      1058

    accuracy                           0.86      9043
   macro avg       0.67      0.69      0.68      9043
weighted avg       0.87      0.86      0.87      9043




#### Respuesta

Precisi√≥n:
- ENTROPY ofrece una mejor precisi√≥n general (0.8628) en comparaci√≥n con GINI (0.8583). Aunque la diferencia es peque√±a, ENTROPY tiene una ligera ventaja en la precisi√≥n general del modelo.

Recall:
- GINI tiene un mejor recall general (0.6923) en comparaci√≥n con ENTROPY (0.6882). Sin embargo, en detalle, para la clase "yes" (suscripciones logradas), ENTROPY tiene un recall de 0.46, mientras que GINI tiene un recall de 0.48. Esto indica que ambos criterios tienen dificultades para detectar bien la clase "yes", aunque GINI es ligeramente mejor en este aspecto.

F1-score:
- El F1-score ponderado es muy similar entre ambos criterios, con ENTROPY ligeramente mejor (0.87) en comparaci√≥n con GINI (0.86). Esto confirma que el equilibrio entre precisi√≥n y recall es similar en ambos casos.

**Conclusi√≥n:**

Si bien ambos criterios de divisi√≥n (GINI y ENTROPY) ofrecen resultados muy similares, ENTROPY tiene una ligera ventaja en t√©rminos de precisi√≥n general y F1-score ponderado. Sin embargo, GINI tiene un mejor recall general, aunque la diferencia es m√≠nima.

En general, ninguno de los criterios alcanza un estado √≥ptimo, especialmente en la detecci√≥n de la clase "yes". Por lo tanto, aunque ENTROPY tiene una ligera ventaja en precisi√≥n y F1-score, ambos criterios necesitan mejorar para alcanzar una optimizaci√≥n mejor en la detecci√≥n de ambas clases.

---


### Analiza el √°rbol obtenido: ¬øqu√© variables aparecen como m√°s importantes? ¬øSon coherentes con el contexto del marketing bancario?

In [None]:
for criterio in criterios:
    modelo = modelos[criterio]

    # Obtener importancias de las variables del modelo entrenado
    importancias = modelo.feature_importances_

    # Crear un DataFrame con nombres de las variables e importancias
    importancias_df = pd.DataFrame({
        'Variable': X.columns,
        'Importancia': importancias
    }).sort_values(by='Importancia', ascending=False)

    # Mostrar las 5 variables m√°s importantes
    print(f"\nüîç Variables m√°s importantes seg√∫n el √°rbol {criterio.upper()}:")
    print(importancias_df.head(5))


üîç Variables m√°s importantes seg√∫n el √°rbol GINI:
   Variable  Importancia
8   contact     0.272957
9     month     0.201860
11    pdays     0.144226
6   housing     0.113830
0       age     0.086976

üîç Variables m√°s importantes seg√∫n el √°rbol ENTROPY:
   Variable  Importancia
8   contact     0.249110
9     month     0.195391
11    pdays     0.151103
6   housing     0.100921
0       age     0.083624


#### Respuesta

Las variables m√°s importantes seg√∫n los √°rboles GINI y ENTROPY son consistentes con el contexto del marketing bancario. Estas variables reflejan aspectos clave que pueden influir en la respuesta de los clientes a una campa√±a de marketing:

- Tipo de contacto: Importante para la efectividad de la comunicaci√≥n.
- Mes de la campa√±a: Relevante para aprovechar tendencias estacionales.
- D√≠as desde el √∫ltimo contacto: Indica la recurrencia y la reciente interacci√≥n.
- Pr√©stamo hipotecario: Refleja la carga financiera y la estabilidad del cliente.
- Edad: Relacionada con las necesidades y preferencias financieras seg√∫n la etapa de vida.

Estos resultados son coherentes con las pr√°cticas comunes en el marketing bancario, donde la comunicaci√≥n efectiva, la situaci√≥n financiera del cliente y la etapa de vida son factores cruciales para el √©xito de las campa√±as.

---

### ¬øQu√© profundidad y n√∫mero de nodos terminales presenta cada √°rbol? ¬øC√≥mo se relaciona esto con el sobreajuste?

In [None]:
for criterio in criterios:
  modelos[criterio] = modelo
  print(f"üìä Criterio {criterio.upper()}:")
  print(f"   Profundidad del √°rbol: {modelo.get_depth()}")
  print(f"   N√∫mero de hojas: {modelo.get_n_leaves()}")
  print()

üìä Criterio GINI:
   Profundidad del √°rbol: 8
   N√∫mero de hojas: 143

üìä Criterio ENTROPY:
   Profundidad del √°rbol: 8
   N√∫mero de hojas: 143



#### Respuesta

Se encontro la profundidad y numero de hojas.

Asimismo, ambos √°rboles tienen la misma profundidad y n√∫mero de hojas. Una profundidad de 8 y 143 hojas son valores moderados que no sugieren sobreajuste. Si los √°rboles fueran m√°s profundos o tuvieran m√°s hojas, podr√≠an capturar ruido en los datos y sobreajustarse. En este caso, los valores actuales parecen equilibrados.

---

## Optimizaci√≥n del √Årbol
###Realiza una b√∫squeda de hiperpar√°metros con GridSearchCV. ¬øQu√© combinaci√≥n ofrece el mejor rendimiento?


In [None]:
# ==========================================
# üîß OPTIMIZACI√ìN DE HIPERPAR√ÅMETROS
# ==========================================

param_grid = {
    'criterion': ['gini', 'entropy'],
    'max_depth': [3, 5, 7, 10, None],
    'min_samples_split': [2, 5, 10, 20],
    'min_samples_leaf': [1, 2, 5, 10],
    'max_features': ['sqrt', 'log2', None],
    'class_weight': ['balanced']
}

grid_search = GridSearchCV(
    estimator=DecisionTreeClassifier(random_state=42),
    param_grid=param_grid,
    cv=5,
    scoring='accuracy',
    n_jobs=-1
)

grid_search.fit(X_train, y_train)
mejor_modelo = grid_search.best_estimator_
y_pred_opt = mejor_modelo.predict(X_test)
acc_opt = accuracy_score(y_test, y_pred_opt)
recall_opt = recall_score(y_test, y_pred_opt, average='macro')  # Macro para evaluar todas las clases por igual
f1_opt = f1_score(y_test, y_pred_opt, average='macro')

print("üîç Resultados de optimizaci√≥n:")
print("\nüèÜ Mejor combinaci√≥n:")
for clave, valor in grid_search.best_params_.items():
    print(f"   {clave}: {valor}")

print(f"\nüìà M√©tricas del modelo optimizado:")
print(f"   Precisi√≥n (Accuracy): {acc_opt:.4f}")
print(f"   Recall: {recall_opt:.4f}")
print(f"   F1-Score: {f1_opt:.4f}")
print(f" üí°Precisi√≥n media CV: {grid_search.best_score_:.4f}")

üîç Resultados de optimizaci√≥n:

üèÜ Mejor combinaci√≥n:
   class_weight: balanced
   criterion: gini
   max_depth: None
   max_features: sqrt
   min_samples_leaf: 1
   min_samples_split: 2

üìà M√©tricas del modelo optimizado:
   Precisi√≥n (Accuracy): 0.8389
   Recall: 0.5943
   F1-Score: 0.5973
 üí°Precisi√≥n media CV: 0.8337


---

### ¬øLa precisi√≥n del √°rbol mejor√≥ significativamente tras la optimizaci√≥n? Justifica si vale la pena el aumento de complejidad

La precisi√≥n del √°rbol disminuy√≥ ligeramente tras la optimizaci√≥n, pasando de 0.8583 a 0.8389. Aunque el modelo optimizado muestra una precisi√≥n media en validaci√≥n cruzada de 0.8337, lo que indica una generalizaci√≥n mejor, el recall y el F1-score tambi√©n disminuyeron. Dado que la complejidad del modelo no aument√≥ significativamente, pero el rendimiento general se mantuvo similar o incluso disminuy√≥, no parece que valga la pena el aumento de complejidad. En este caso, ser√≠a recomendable explorar otras opciones de hiperpar√°metros o incluso probar otros algoritmos de modelado para encontrar una soluci√≥n m√°s efectiva.

---

## M√©todos de Ensamblado

### Compara los siguientes modelos en cuanto a precisi√≥n, recall, F1-score y AUC-ROC:
  - Random Forest
  - Gradient Boosting
  - AdaBoost
  - Extra Trees



In [None]:
# ================================
# RANDOM FOREST
# ================================

print("\nüå≤ RANDOM FOREST")
rf = RandomForestClassifier(
    n_estimators=200, max_depth=10, min_samples_split=5, min_samples_leaf=2,
    max_features='sqrt', bootstrap=True, n_jobs=-1, random_state=42
)
rf.fit(X_train, y_train)  # Entrenar modelo
y_pred_rf = rf.predict(X_test)  # Predecir
acc_rf = accuracy_score(y_test, y_pred_rf)  # Calcular precisi√≥n
auc_rf = roc_auc_score(y_test, rf.predict_proba(X_test)[:, 1])  # Calcular AUC
print(f"Precisi√≥n: {acc_rf:.4f}")
print(f"AUC-ROC: {auc_rf:.4f}")

# ================================
# GRADIENT BOOSTING
# ================================

print("\n‚ö° GRADIENT BOOSTING")
gb = GradientBoostingClassifier(
    n_estimators=150, learning_rate=0.1, max_depth=4,
    min_samples_split=10, min_samples_leaf=5,
    subsample=0.8, random_state=42
)
gb.fit(X_train, y_train)
y_pred_gb = gb.predict(X_test)
acc_gb = accuracy_score(y_test, y_pred_gb)
auc_gb = roc_auc_score(y_test, gb.predict_proba(X_test)[:, 1])
print(f"Precisi√≥n: {acc_gb:.4f}")
print(f"AUC-ROC: {auc_gb:.4f}")

# ================================
# ADABOOST
# ================================

print("\nüéØ ADABOOST")
ada = AdaBoostClassifier(
    estimator=DecisionTreeClassifier(max_depth=1),
    n_estimators=100, learning_rate=1.0,
    # Cambiar 'SAMME.R' a 'SAMME' ya que 'SAMME.R' no es un valor v√°lido en esta versi√≥n de scikit-learn
    algorithm='SAMME',
    random_state=42
)
ada.fit(X_train, y_train)
y_pred_ada = ada.predict(X_test)
acc_ada = accuracy_score(y_test, y_pred_ada)
auc_ada = roc_auc_score(y_test, ada.predict_proba(X_test)[:, 1])
print(f"Precisi√≥n: {acc_ada:.4f}")
print(f"AUC-ROC: {auc_ada:.4f}")

# ================================
# EXTRA TREES
# ================================

print("\nüåø EXTRA TREES")
et = ExtraTreesClassifier(
    n_estimators=200, max_depth=None, min_samples_split=5, min_samples_leaf=2,
    max_features='sqrt', bootstrap=False, n_jobs=-1, random_state=42
)
et.fit(X_train, y_train)
y_pred_et = et.predict(X_test)
acc_et = accuracy_score(y_test, y_pred_et)
auc_et = roc_auc_score(y_test, et.predict_proba(X_test)[:, 1])
print(f"Precisi√≥n: {acc_et:.4f}")
print(f"AUC-ROC: {auc_et:.4f}")

# ================================
# COMPARACI√ìN DE TODOS LOS MODELOS
# ================================

# Crear diccionario de resultados
resultados = {
    'Random Forest': {'Precisi√≥n': acc_rf, 'AUC-ROC': auc_rf},
    'Gradient Boosting': {'Precisi√≥n': acc_gb, 'AUC-ROC': auc_gb},
    'AdaBoost': {'Precisi√≥n': acc_ada, 'AUC-ROC': auc_ada},
    'Extra Trees': {'Precisi√≥n': acc_et, 'AUC-ROC': auc_et}
}

# Mostrar resultados como DataFrame
resultados_df = pd.DataFrame(resultados).T
print("\nüìä COMPARACI√ìN FINAL DE TODOS LOS M√âTODOS:")
print(resultados_df.round(4))


üå≤ RANDOM FOREST
Precisi√≥n: 0.8938
AUC-ROC: 0.7880

‚ö° GRADIENT BOOSTING
Precisi√≥n: 0.8932
AUC-ROC: 0.7949

üéØ ADABOOST
Precisi√≥n: 0.8909
AUC-ROC: 0.7744

üåø EXTRA TREES
Precisi√≥n: 0.8941
AUC-ROC: 0.7842

üìä COMPARACI√ìN FINAL DE TODOS LOS M√âTODOS:
                   Precisi√≥n  AUC-ROC
Random Forest         0.8938   0.7880
Gradient Boosting     0.8932   0.7949
AdaBoost              0.8909   0.7744
Extra Trees           0.8941   0.7842


---

### ¬øQu√© modelo ser√≠a m√°s adecuado para una campa√±a bancaria real que busca minimizar falsos negativos? Justifica tu elecci√≥n.

Dado que la campa√±a bancaria busca minimizar falsos negativos, es crucial elegir un modelo que tenga un buen recall, ya que los falsos negativos se relacionan directamente con la capacidad de detectar correctamente las suscripciones positivas. En este caso, aunque los modelos tienen precisiones similares, el Gradient Boosting tiene el mejor AUC-ROC (0.7949), lo que indica una mejor capacidad para distinguir entre las clases. Adem√°s, un buen AUC-ROC sugiere que el modelo puede manejar mejor el trade-off entre recall y precisi√≥n. Por lo tanto, el Gradient Boosting ser√≠a el m√°s adecuado para esta campa√±a, ya que puede ofrecer un mejor equilibrio entre minimizar falsos negativos y mantener un buen rendimiento general.

---

## Interpretaci√≥n de variables

### Extrae las variables m√°s importantes de al menos dos modelos ensamblados. ¬øQu√© patrones o perfiles de cliente parecen m√°s propensos a contratar el dep√≥sito?



In [None]:

# Primero optemos las varibales de Gradient Boosting
importancia_gb = pd.DataFrame({
    'Variable': X.columns,
    'Importancia': gb.feature_importances_
}).sort_values(by='Importancia', ascending=False).head(10)

# Luego , obtengo la importancia de variables de Random forest
importancia_ada = pd.DataFrame({
    'Variable': X.columns,  # Nombre de las variables (columnas del dataset)
    'Importancia': rf.feature_importances_  # Importancia calculada por el modelo
}).sort_values(by='Importancia', ascending=False).head(10)  # Ordeno de mayor a menor y me quedo con las 10 principales

# Finalmente, imprimo los resultados de forma textual (sin gr√°ficos) para poder analizarlos con facilidad
print("\nüîç Top 10 variables m√°s importantes - Gradient Boosting")
print(importancia_ada.to_string(index=False))

print("\nüîç Top 10 variables m√°s importantes - Random forest")
print(importancia_gb.to_string(index=False))



üîç Top 10 variables m√°s importantes - Gradient Boosting
Variable  Importancia
poutcome     0.203162
   month     0.154752
     age     0.129830
   pdays     0.124817
 balance     0.086611
 housing     0.078984
previous     0.049374
 contact     0.048357
     job     0.036352
campaign     0.032749

üîç Top 10 variables m√°s importantes - Random forest
Variable  Importancia
   month     0.213941
   pdays     0.186964
poutcome     0.166115
     age     0.140360
 balance     0.081331
 contact     0.062937
 housing     0.056797
previous     0.023031
campaign     0.020020
     job     0.015420


#### Repuesta

Con nuestra respuesta anterior elegimos nuestra mejor opcion Gradient Boosting y Random forest

- poutcome: Ambos modelos coinciden en que el resultado de campa√±as anteriores es muy importante. Clientes que han respondido positivamente en el pasado son m√°s propensos a contratar nuevos productos.
- month: El mes de la campa√±a es crucial, sugiriendo que ciertos meses pueden ser m√°s propicios para las campa√±as de marketing.
- age: La edad es un factor importante, indicando que ciertas etapas de la vida pueden estar m√°s dispuestas a contratar productos financieros.
- pdays: La recurrencia y la reciente interacci√≥n son relevantes. Clientes contactados recientemente pueden estar m√°s dispuestos a considerar una oferta.
- balance: Un saldo anual m√°s alto puede indicar una capacidad financiera mayor, lo que puede hacer que los clientes sean m√°s propensos a contratar productos de ahorro.
- housing: Tener un pr√©stamo hipotecario puede indicar una situaci√≥n financiera estable, lo que puede hacer que los clientes sean m√°s propensos a considerar productos adicionales.


Los clientes m√°s propensos a contratar el dep√≥sito son aquellos que han respondido positivamente a campa√±as anteriores, han sido contactados recientemente, tienen una edad avanzada, y tienen una situaci√≥n financiera estable (alto saldo y pr√©stamos hipotecarios).

---


# Interpretaciones finales
## Para concluir el laboratorio, reflexiona y responde:
  - ¬øQu√© fortalezas y debilidades identificas en los modelos basados en √°rboles para este tipo de tarea?
  - ¬øQu√© modelo aplicar√≠as si tuvieras que entregar una soluci√≥n a un equipo de marketing no t√©cnico? ¬øPor qu√©?
  - ¬øQu√© problemas √©ticos o de sesgo podr√≠an surgir al usar estos modelos para tomar decisiones comerciales automatizadas?
  - ¬øC√≥mo cambiar√≠a tu estrategia si el dataset estuviera a√∫n m√°s desbalanceado o si faltaran datos en variables clave?


Los modelos basados en √°rboles tienen fortalezas como su capacidad para manejar variables categ√≥ricas y num√©ricas sin normalizaci√≥n, y son f√°ciles de interpretar, lo que es √∫til para equipos no t√©cnicos. Sin embargo, pueden sufrir de sobreajuste y ser menos robustos a datos ruidosos. Para un equipo de marketing no t√©cnico, aplicar√≠a un modelo de Random Forest debido a su equilibrio entre precisi√≥n y facilidad de interpretaci√≥n, y porque puede manejar bien datos desbalanceados. Al usar estos modelos, podr√≠an surgir problemas √©ticos como sesgos en la toma de decisiones si los datos de entrenamiento no son representativos de toda la poblaci√≥n. Si el dataset estuviera m√°s desbalanceado, considerar√≠a t√©cnicas de re-muestreo o ajuste de pesos de clase. Si faltaran datos en variables clave, explorar√≠a imputaci√≥n de datos o selecci√≥n de caracter√≠sticas para reducir la dependencia de esas variables.

---

