<div style="text-align: center;">
    <h1><strong><u>TFM MÁSTER DATA SCIENCE, BIG DATA & BUSINESS ANALYTICS</u></strong></h1>
    <h2><strong><u>Predicción de la suscripción a depósitos a plazo mediante Machine Learning y Deep Learning en campañas de marketing bancario </u></strong></h1>
    <h3><em>MAURO ALEXIS FERNÁNDEZ</em></h2>
    <h3><em>UNIVERSIDAD COMPLUTENSE DE MADRID</em></h2>
    <h3><em>2024/2025</em></h2>
</div>


**Link Repositorio Github del TFM** https://github.com/MauroAlexisFernandez/TFM_UCM_DataScience


<div style="text-align: center;">
    <strong>En virtud de los requerimientos detallados para la realización del TFM</strong><br>
    Se presentan a continuación las líneas de código y comentarios relativos a la exploración y visualización de datos, procesamiento, modelado, ajuste de hiperparámetros y productivización del modelo predictivo. El código relativo a la parte ya productivizada del TFM, se incorpora en los otros archivos disponibles en el repositorio arriba referido.<br>
    <strong>Fuente de datos disponible en: <a href="https://archive.ics.uci.edu/dataset/222/bank+marketing" target="_blank">Bank Marketing</a><br> </strong>
</div>

**ÍNDICE**
* [1. CARGA DE LAS LIBRERÍAS NECESARIAS Y EL DATASET](#section-one)
* [2. ANÁLISIS EXPLORATORIO DE DATOS (EDA)](#section-two)
    - [2.1 Distribución de la variable objetivo (desbalanceo)](#section-two-subsection-one)
    - [2.2 Análisis de variables categóricas y numéricas](#section-two-subsection-two)
    - [2.3 Correlaciones y relaciones significativas](#section-two-subsection-three)
    - [2.4 Segmentaciones por atributos clave](#section-two-subsection-four)
    - [2.5 Insights preliminares](#section-two-subsection-five)
* [3. PREPROCESAMIENTO DE DATOS](#section-three)
    - [3.1 Tratamiento de valores faltantes o inconsistentes](#section-three-subsection-one)
    - [3.2 Encoding de variables categóricas](#section-three-subsection-two)
    - [3.3 Transformaciones de variables numéricas](#section-three-subsection-three)
* [4. INGENIERÍA DE CARACTERÍSTICAS](#section-four)
     - [4.1 Agrupaciones o transformaciones lógicas](#section-four-subsection-one)
     - [4.2 Generación de nuevas variables derivadas](#section-four-subsection-two)
     - [4.3 Eliminación de variables redundantes](#section-four-subsection-three)
     - [4.4 Encoding de variables categóricas (OneHotEncoder)](#section-four-subsection-four)   
* [5. MODELADO PREDICTIVO](#section-five)
     - [5.1 División del conjunto en entrenamiento y test](#section-five-subsection-one) 
     - [5.2 Elección de métricas: accuracy, precision, recall, F1, AUC](#section-five-subsection-two) 
     - [5.3 Definición del baseline](#section-five-subsection-three) 
     - [5.4 Modelo de Regresión logística](#section-five-subsection-four) 
     - [5.5 Modelo de Árboles de decisión](#section-five-subsection-five) 
     - [5.6 Modelo de Random Forest](#section-five-subsection-six) 
     - [5.7 Modelo de XGBoost](#section-five-subsection-seven) 
     - [5.8 Modelo de K-Nearest Neighbors](#section-five-subsection-eight) 
     - [5.9 Modelo de Naive Bayes](#section-five-subsection-nine)
     - [5.10 Modelo de Deep Learning](#section-five-subsection-ten)
     - [5.11 Comparación de modelos](#section-five-subsection-eleven)
     - [5.12 Tuneo de hiperparámetros para el modelo seleccionado](#section-five-subsection-twelve)
* [6. INTERPRETABILIDAD Y EXPLICABILIDAD DE MODELOS](#section-six)
     - [6.1 Feature importance](#section-six-subsection-one)    
     - [6.2 SHAP y LIME para interpretación local/global](#section-six-subsection-two) 
     - [6.3 Discusión sobre sesgos y robustez del modelo](#section-six-subsection-three)   
* [7. EVALUACIÓN FINAL Y SELECCIÓN DE MODELO FINAL](#section-seven)
     - [7.1 Comparación global de métricas](#section-seven-subsection-one)    
     - [7.2 Selección del modelo con mejor balance interpretabilidad-rendimiento](#section-seven-subsection-two) 
* [8. PRODUCTIVIZACIÓN DEL MODELO](#section-eight)

<div style="text-align: center;"> <strong>Descripción inicial del dataset y su propósito</strong><br>

<em>"Una institución bancaria portuguesa llevó a cabo campañas de marketing directo con el objetivo de evaluar si los clientes contratarían un depósito a plazo luego de ser contactados por los operadores comerciales.
Dichas campañas se basaron en llamadas telefónicas, y en algunos casos fue necesario contactar al mismo cliente en más de una ocasión."</em></div>

<div style="text-align: center;"> <strong>Contribución esperada</strong><br>

<em>"El presente trabajo tiene como objetivo construir y comparar modelos de clasificación que permitan predecir la suscripción a depósitos a plazo. Se espera identificar los atributos más influyentes en la decisión de los clientes y seleccionar un modelo robusto y explicable que pueda ser integrado en sistemas de apoyo a la decisión bancaria."</em></div>

<a id="section-one"></a>
<h2><strong>1- CARGA DE LAS LIBRERÍAS NECESARIAS Y EL DATASET</strong> </h2>

<div style="text-align: center;">
Se inicia el desarrollo del código mediante la siguiente celda donde se importarán la mayoría de las librerías necesarias para la realización de la actividad. Asimismo, se destaca que pueden existir repeticiones de importaciones en celdas posteriores (aunque se ha buscado minimizar las mismas).
</div>

In [None]:
# ===============================
#Librerías básicas pandas y numpy de Python usadas para análisis de datos
# ===============================
import pandas as pd # Manipulación y análisis de datos tabulares
import numpy as np # Operaciones numéricas y matrices

# ===============================
#Librerías de visualización
# ===============================
import matplotlib.pyplot as plt # Visualizaciones básicas (gráficos de línea, barras, histograma, etc.)
import seaborn as sns # Visualizaciones estadísticas avanzadas, heatmaps, boxplots, etc.
import plotly.express as px # Gráficos interactivos de alto nivel
import plotly.graph_objects as go # Gráficos interactivos personalizados

# ===============================
#Librería para EDA (análisis exploratorio automatizado)
# ===============================
from ydata_profiling import ProfileReport # Generación automática de reportes de EDA

# ===============================
#Librería para transformar en numéricas aquellas variables categóricas 
#(se destaca que la ejecución de muchos modelos de ML no aceptan la introducción de variables categóricas)
# ===============================
from sklearn.preprocessing import LabelEncoder  # Codificación ordinal simple (útil para variables con orden implícito)
from sklearn.preprocessing import OneHotEncoder # Codificación one-hot (útil para modelos que no aceptan etiquetas)

# ===============================
# Librerías para partición del dataset, validación cruzada, ajuste de hiperparámetros y validación de modelo
# ===============================
from sklearn.model_selection import (
    train_test_split,  # División en conjuntos de entrenamiento y prueba
    cross_val_score,   # Evaluación cruzada de modelos
    GridSearchCV,      # Búsqueda de hiperparámetros óptimos
    StratifiedKFold    # Validación cruzada estratificada
)
from sklearn.dummy import DummyClassifier  # Clasificador de referencia (baseline)
from sklearn.feature_selection import RFECV # Eliminación recursiva de características con validación cruzada
from sklearn.base import BaseEstimator, TransformerMixin # Clases base para crear transformadores personalizados (útiles en pipelines)


# ===============================
#Modelos clásicos de clasificación
# ===============================
from sklearn.linear_model import LogisticRegression # Regresión logística
from sklearn.tree import DecisionTreeClassifier # Árboles de decisión
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier # Ensambles: Random Forest y AdaBoost
from sklearn.svm import LinearSVC, SVC # Máquinas de vectores de soporte (lineales y no lineales)
from xgboost import XGBClassifier # Clasificador basado en gradient boosting (XGBoost)
from sklearn.naive_bayes import GaussianNB # Clasificador Naive Bayes
from sklearn.neighbors import KNeighborsClassifier # Clasificador K-Nearest Neighbors


# ===============================
#Librerías de Deep Learning
# ===============================
import keras # Framework de alto nivel para redes neuronales (sobre TensorFlow)
from keras.models import Sequential # Modelo secuencial de Keras
from keras.layers import Dense, Dropout # Capa densa totalmente conectada y de dropout
from tensorflow.keras import regularizers # Regularizadores L1, L2, etc.
from keras import layers # Acceso directo a capas como Dense, Dropout, etc.
from keras.metrics import Precision, Recall, AUC # Métricas específicas de Keras para evaluar modelos
from keras.callbacks import EarlyStopping # Detiene el entrenamiento si no hay mejora en la métrica monitorizada


# ===============================
# Escalado de variables
# ===============================
from sklearn.preprocessing import MinMaxScaler # Escalado entre 0 y 1 (normalización)


# ===============================
# Balanceo de clases con sobremuestreo
# ===============================
from imblearn.over_sampling import SMOTE # Técnica SMOTE para generar datos sintéticos de clases minoritarias


# ===============================
# Visualización de relaciones entre variables
# ===============================
from pandas.plotting import scatter_matrix # Matriz de diagramas de dispersión entre variables numéricas


# ===============================
# Selección de características
# ===============================
from sklearn.feature_selection import SelectKBest # Selección de las mejores K variables
from sklearn.feature_selection import VarianceThreshold # Eliminación de variables con baja varianza


# ===============================
# Métricas de evaluación de modelos(curva ROC y área bajo la curva)
# ===============================
from sklearn.metrics import classification_report, accuracy_score, auc, confusion_matrix, f1_score, precision_score, recall_score, roc_curve


# ===============================
# Estadísticas adicionales
# ===============================
from scipy.stats import stats # Pruebas estadísticas diversas (t-test, normalidad, etc.)
from scipy.stats import chi2_contingency # Test de chi-cuadrado (asociación entre variables categóricas)


# ===============================
# Interpretación de modelos (Explainability)
# ===============================
import lime  # Framework para interpretabilidad de modelos caja negra
import shap  # Interpretación global y local de modelos (SHAP values)
from lime import lime_tabular # Visualización local basada en LIME para datos tabulares


# ===============================
# Pipelines y serialización
# ===============================
from sklearn.pipeline import Pipeline # Creación de pipelines de preprocesamiento y modelado
from sklearn.compose import ColumnTransformer # Aplicación de transformaciones por columnas
from imblearn.pipeline import Pipeline as ImbPipeline # Pipeline compatible con técnicas de sobremuestreo
import joblib # Serialización de modelos y objetos
import pickle # Serialización alternativa con Python puro

# ===============================
# Configuración de entorno
# ===============================
import warnings 
warnings.filterwarnings("ignore") # Ignorar advertencias para evitar ruido en la salida

<div style="text-align: center;">
Se procede ahora a la lectura del archivo CSV con los datos originales y, a partir de los mismos, se genera un dataframe de pandas.
</div>

In [None]:
#Efectúo la lectura del csv y guardo todo en un dataframe de Pandas con nombre df
df = pd.read_csv('bank-additional-full.csv', sep=';')

In [None]:
#Reviso las primeras filas del dataframe generado
df.head()

In [None]:
#Obtengo el tamaño y cantidad de columnas de dataframe recién generado
df.shape

A partir de los resultados obtenidos en la celda anterior, se observa que el dataframe contiene **41,188 registros** y **21 columnas** (incluyendo la variable objetivo).

Este tamaño es representativo para el análisis que se llevará a cabo, permitiendo abordar un amplio rango de características para el modelado y evaluación de la variable objetivo.

<a id="section-two"></a>
<h2><strong>2 - ANÁLISIS EXPLORATORIO DE DATOS (EDA)</strong></h2>

In [None]:
#Reviso si la generación del dataframe df fue correcta y muestro todas las columnas presentes.
#Selecciono la opción 'display.max_columns' para que pueda ver todas las columnas, sin truncar las intermedias con puntos suspensivos.
pd.set_option('display.max_columns', None)
df

## Identificación y descripción de las variables

A continuación se incluye un listado con la descripción de las variables presentes en el dataset:

### A. Datos sobre el cliente del banco

| Variable   | Descripción                                                             | Tipo       | Nota |
|------------|--------------------------------------------------------------------------|------------|------|
| age        | Edad en años del cliente                                                        | Numérica   |      |
| job        | Tipo de empleo del cliente                                                         | Categórica |      |
| marital    | Estado civil del cliente                                                           | Categórica | *"divorced" puede incluir viudo* |
| education  | Nivel educativo  del cliente                                                       | Categórica |      |
| default    | ¿El cliente posee algún crédito en default?                                        | Categórica |      |
| housing    | ¿El cliente posee algún crédito para vivienda?                                           | Categórica |      |
| loan       | ¿El cliente posee algún crédito personal?                                                | Categórica |      |

### B. Relativas al último contacto en la presente campaña

| Variable     | Descripción                                                  | Tipo       |
|--------------|---------------------------------------------------------------|------------|
| contact      | Tipo de comunicación utilizada por el marketer                               | Categórica |
| month        | Mes del último contacto con el cliente por el marketer                                      | Categórica |
| day_of_week  | Día de la semana del último contacto por el marketer                         | Categórica |
| duration     | Duración del último contacto (en segundos) entre cliente-marketer                   | Numérica   |

### C. Otros atributos relacionados con la campaña

| Variable   | Descripción                                                                 | Tipo       | Nota |
|------------|------------------------------------------------------------------------------|------------|------|
| campaign   | Cantidad de contactos realizados en esta campaña con el cliente                           | Numérica   |      |
| pdays      | Días desde el último contacto en campañas anteriores con el cliente                       | Numérica   |*999 indica que no fue contactado previamente* |
| previous   | Número de contactos previos antes de esta campaña con el cliente                          | Numérica   |      |
| poutcome   | Resultado de campañas anteriores con este cliente                                            | Categórica |      |

### D. Atributos socioeconómicos

| Variable        | Descripción                                                             | Tipo       |
|------------------|--------------------------------------------------------------------------|------------|
| emp.var.rate     | Tasa de variación del empleo registrado – indicador trimestral                     | Numérica   |
| cons.price.idx   | Índice de precios al consumidor – indicador mensual                     | Numérica   |
| cons.conf.idx    | Índice de confianza del consumidor – indicador mensual                  | Numérica   |
| euribor3m        | Tasa euribor a 3 meses – indicador diario                               | Numérica   |
| nr.employed      | Número de personas empleadas – indicador trimestral                              | Numérica   |

### E. Variable objetivo

| Variable | Descripción                                          | Tipo     |
|----------|-------------------------------------------------------|----------|
| y        | ¿El cliente terminó por contratar un depósito a plazo fijo?        | Binaria  |


<div style="text-align: center;">

**Nota adicional 1:** 

Asimismo, se destaca el hecho de que el sitio, donde se aloja el dataset fuente, explicita que aquellos valores de **999** corresponden a **valores faltantes**.


</div>

Ahora procedo a analizar e identificar la presencia de filas **duplicadas** en el dataframe

In [None]:
# Primero identifico las filas/registros duplicados
duplicates = df[df.duplicated()]
duplicates

In [None]:
#Muestro la cantidad de duplicados en el dataframe df
print(f"Cantidad de registros duplicados: {duplicates.shape[0]}")

Se detectaron **12 filas duplicadas** en el dataframe.

In [None]:
# Se procede a eliminar aquellas filas previamente identificadas como duplicadas
df.drop_duplicates(inplace = True) 

In [None]:
# Verifico que no queden filas duplicadas 
duplicates = df[df.duplicated()]
duplicates

In [None]:
#Vuelvo a mostrar la cantidad de duplicados para revisar
print(f"Cantidad de registros duplicados: {duplicates.shape[0]}")

In [None]:
# Observo el tamaño del dataframe luego de estas tareas de limpieza de duplicados
df.shape

A continuación, procedo a analizar e identificar la presencia de **datos nulos** en el dataframe.

In [None]:
df.isnull().sum()

No se identificaron valores nulos **explícitos** en ninguna de las columnas del dataframe. Sin embargo, se procederá a investigar la posible existencia de valores faltantes **implícitos o codificados** de otra forma.

In [None]:
# Utilizo .info() sobre el dataframe para revisar los tipos de datos por variable en este momento.
df.info()

<a id="section-two-subsection-one"></a>
### **2.1 Distribución de la variable objetivo (desbalanceo)**

In [None]:
#Luego, busco obtener la distribución de valores entre las 2 categorías posibles para la variable objetivo (si se contratan o no créditos a plazo) .
df.y.value_counts()

Se observa un **marcado desbalance** en la distribución de la variable objetivo, con **36,537 registros correspondientes a la clase no y 4,639 registros a la clase yes**.
Este desequilibrio deberá ser tenido en cuenta en las posteriores etapas de modelado, especialmente en las técnicas de balanceo de datos.

In [None]:
#Ahora lo presento de forma gráfica para evidenciarlo más claramente con una visualización
# Primero cuento los valores
y_counts = df['y'].value_counts()
sizes = y_counts.values
labels = y_counts.index

colors = ['#66b3ff', '#ff9999']  # Defino los colores para cada valor de la variable

def make_autopct(values):
    def my_autopct(pct):
        total = sum(values)
        count = int(round(pct * total / 100.0))
        return f'{count} ({pct:.1f}%)'
    return my_autopct

plt.figure(figsize=(6,6))
wedges, texts, autotexts = plt.pie(
    sizes,
    labels=None,  # No muestro las etiquetas fuera para no repetir y sobre-cargar la vista
    autopct=make_autopct(sizes),
    startangle=90,
    colors=colors,
    textprops={'color':'black'}  
)

plt.title('Distribución de la variable objetivo (y)')

# Agrego leyenda que explique qué color corresponde a cada valor de y
plt.legend(wedges, labels,
           title="Valores de y",
           loc="center left",
           bbox_to_anchor=(1, 0, 0.5, 1))  # Lo coloco en una ubicación fuera del gráfico para no abigarrar demasiado

plt.axis('equal')
plt.show()

<a id="section-two-subsection-two"></a>
### **2.2 Análisis de variables categóricas y numéricas**

### Análisis de variables numéricas
Se muestran a continuación las principales métricas descriptivas de las variables **numéricas**, incluyendo la media, los valores mínimo y máximo, así como los percentiles 25, 50 (mediana) y 75.  
Esto permite obtener una primera aproximación a la distribución y posibles valores atípicos en los datos.

In [None]:
#Selecciono y separo las variables categóricas y numéricas del dataset xtrain
cat_cols= df.select_dtypes(include=['object','category']).columns
num_cols = df.select_dtypes(exclude=['object','category']).columns

In [None]:
# Con .describe() visualizo algunas métricas sobre las variables numéricas (media, valor mínimo,máximo, cuartiles, etc.)
df.describe()

In [None]:
# Función para visualizar histogramas y boxplots de variables numéricas
def visualizar_numericas(df, num_cols):
    for col in num_cols:
        plt.figure(figsize=(14, 5))

        # Histograma
        plt.subplot(1, 2, 1)
        sns.histplot(df[col], kde=True, bins=30, color='skyblue')
        plt.title(f'Histograma de {col}')
        plt.xlabel(col)
        plt.ylabel('Frecuencia')

        # Boxplot
        plt.subplot(1, 2, 2)
        sns.boxplot(x=df[col], color='salmon')
        plt.title(f'Boxplot de {col}')
        plt.xlabel(col)

        plt.tight_layout()
        plt.show()

# Llamo a la función
visualizar_numericas(df, num_cols)


### Análisis descriptivo de variables numéricas

A partir del análisis preliminar, se observan los siguientes aspectos relevantes que serán fundamentales para la etapa de preprocesamiento:

- **Edad (`age`)**: La distribución varía entre 17 y 98 años, con una media cercana a los 40 años y una desviación estándar de aproximadamente 10. Esto refleja una población mayoritariamente adulta y heterogénea. Podría considerarse agrupar por rangos etarios o detectar valores extremos.

- **`campaign`**: Presenta una fuerte asimetría. El valor máximo es 56, mientras que el percentil 75 es apenas 3, lo que sugiere la presencia de *outliers* (clientes contactados muchas veces). Este comportamiento podría impactar negativamente en algunos algoritmos sensibles a valores extremos.

- **`duration`**: La variable presenta una distribución fuertemente asimétrica hacia la derecha, con una gran concentración de observaciones en valores bajos (cercanos a cero) y una larga cola que se extiende hasta los 4918 segundos. El boxplot revela una abundante presencia de valores atípicos. 

- **`pdays`**: Se observa que los percentiles 25, 50 y 75 coinciden en 999, lo cual indica que este valor está siendo utilizado como código para "no contactado previamente". Por su naturaleza, debería ser recodificado o transformado en una variable categórica o binaria.

- **`previous`**: Tanto la mediana como el tercer cuartil son cero, lo que indica que la mayoría de los clientes no tuvo contactos previos exitosos. Esta variable presenta una alta concentración de ceros, por lo que podría analizarse su distribución o convertirla en una variable binaria.

- **Variables macroeconómicas (`emp.var.rate`, `cons.price.idx`, `euribor3m`, `nr.employed`)**: Muestran una baja dispersión relativa y valores bastante acotados, lo que refleja su estabilidad como indicadores de contexto económico. Si bien su variabilidad es limitada, podrían aportar valor al modelo al capturar el entorno macro durante cada campaña.

En conjunto, este análisis permite identificar necesidades de transformación como recodificación de valores especiales, detección de outliers, y posibles decisiones de ingeniería de variables. Estos hallazgos guiarán el tratamiento adecuado de los datos en etapas posteriores.


### Análisis de variables categóricas

A continuación, se procederá a analizar las variables categóricas del conjunto de datos.

In [None]:
# Visualizo la distribución de todas las variables categóricas del dataframe
for col in cat_cols:
    plt.figure(figsize=(10, 5))

    num_categories = df[col].nunique()
    palette = sns.color_palette("husl", num_categories)

    sns.countplot(
        x=col,
        data=df,
        order=df[col].value_counts().index,
        palette=palette
    )

    plt.title(f'Conteo de valores para la variable categórica: {col}')
    plt.xticks(rotation=45, ha='right')  # Con esto mejoro la legibilidad de aquellas etiquetas demasiado largas
    plt.tight_layout()
    plt.show()

### Análisis descriptivo de variables categóricas

En esta sección se analiza la distribución de las variables categóricas presentes en el dataset. Se utilizaron gráficos de barras (`countplot` de seaborn) para visualizar la frecuencia de cada categoría en las distintas variables, ordenando los valores de mayor a menor para facilitar su interpretación.

A continuación se presentan las principales observaciones:

### `poutcome` (Resultado de campañas anteriores)
La mayoría de los clientes no ha participado en campañas previas (`nonexistent`). Las categorías `failure` y `success` tienen una representación significativamente menor. Podría considerarse recodificar esta variable en binaria (participó / no participó).

### `job` (Empleos/ocupaciones)
La mayoría de los clientes tienen ocupaciones como *admin.*, *blue-collar* y *technician*. También se observan categorías como *student*, *unemployed* y *unknown*, que podrían requerir un tratamiento especial.

### `day_of_week` (Día del contacto)
Distribución relativamente equilibrada entre los días de la semana, aunque martes y miércoles presentan una ligera mayor frecuencia. Puede mantenerse sin necesidad de transformación.

### `month` (Mes del contacto)
Se observa una fuerte concentración en los meses de mayo, junio, julio y agosto. Esto sugiere una estacionalidad en la ejecución de las campañas, lo cual podría ser relevante para el modelado.

### `contact` (Tipo de contacto)
La mayoría de los contactos se realizó vía celular. La categoría `telephone` tiene baja frecuencia. A pesar del desbalance, la variable puede aportar información útil.

### `loan`, `housing`, `default`
En los tres casos, predomina la categoría `no`. La variable `default` tiene una frecuencia muy baja en la categoría `yes`, lo que podría reducir su poder predictivo. Se recomienda evaluar su utilidad más adelante.

### `education`
Existen múltiples niveles educativos, con predominancia de `university.degree`, `high.school` y `basic.9y`. Algunas categorías como `illiterate` y `unknown` tienen muy poca representación. Sería conveniente agrupar niveles en categorías más amplias (ej.: básico, medio, superior) para reducir cardinalidad y mejorar interpretabilidad.

### `marital`
Distribución clara entre `married`, `single` y `divorced`, siendo `married` la más frecuente. Es una variable informativa que puede mantenerse sin modificaciones.

---

**Conclusión:**  
Este análisis permitió identificar desbalances, patrones de estacionalidad y posibles oportunidades de transformación o agrupamiento en variables categóricas. Estas observaciones serán tenidas en cuenta en las etapas de preprocesamiento y modelado.


### Generación de reporte/informe con el perfilado de datos
En la siguiente celda, genero un informe con visualizaciones e información útil para profundizar esta etapa de EDA

In [None]:
#Esta celda genera un informe con el perfilado de los datos. El archivo resultante puede ser consultado y explorado.
#A partir de este informe, obtengo una serie de gráficos, recomendaciones y voy tomando nota de las caarcterísticas de los datos.
prof = ProfileReport(df)
prof.to_file(output_file='output_reporte.html')

<a id="section-two-subsection-three"></a>
### **2.3 Correlaciones y relaciones significativas**

In [None]:
#Genero un heatmap (mapa de calor) de las correlaciones entre las variables numéricas del DataFrame
#Esto puede permitirme detectar variables altamente correlacionadas (multicolinealidad),
#entender relaciones lineales entre features o tomar decisiones sobre selección de variables o ingeniería de features.
%matplotlib inline
df_correlacion = df.select_dtypes(include=['number'])
correlation_mat = df_correlacion.corr()
sns.heatmap(correlation_mat)
plt.show()

### Análisis de correlación entre variables numéricas

#### Variables incluidas:
- `age`, `duration`, `campaign`, `pdays`, `previous`
- `emp.var.rate`, `cons.price.idx`, `cons.conf.idx`, `euribor3m`, `nr.employed`

---

#### Observaciones del heatmap:

-  **Alta correlación positiva** entre:
  - `emp.var.rate`, `euribor3m`, `nr.employed` y `cons.price.idx`:
    - Estas variables económicas están **fuertemente correlacionadas** entre sí (coef. > 0.8), lo que indica **riesgo de multicolinealidad** si se incluyen juntas en modelos lineales.
 
-  **Correlaciones negativas destacadas**:
  - `pdays` y `previous` tienen una fuerte correlación **negativa** (coef. < -0.5).
  - `emp.var.rate` y `cons.conf.idx` también tienen una correlación negativa notable.

-  **Variables independientes**:
  - `age`, `duration` y `campaign` tienen **baja correlación** con las demás variables numéricas, lo cual es bueno si buscamos independencia entre features.

---

#### Recomendaciones que deberemos considerar:

-  **Reducción de multicolinealidad**:
   Puede ser necesario **dejar solo una o pocas** entre: `euribor3m`, `emp.var.rate`, `nr.employed` o `cons.price.idx` si se utiliza un modelo lineal o de regresión logística. Estas variables macro podrían ser muy útiles para explicar el contexto de la campaña, pero deben analizarse con cuidado por su interdependencia.

-  **Transformaciones o selección**:
   Para modelos basados en árboles (como XGBoost o Random Forest), **la multicolinealidad no es un problema grave**, aunque puede afectar la interpretabilidad.

In [None]:
# Luego y para observar las correlaciones entre las variables catagóricas, utilizo esta función para calcular la V de Cramér 
def cramers_v(x, y):
    confusion_matrix = pd.crosstab(x, y)
    chi2 = chi2_contingency(confusion_matrix)[0]
    n = confusion_matrix.sum().sum()
    phi2 = chi2 / n
    r, k = confusion_matrix.shape
    return np.sqrt(phi2 / min(k - 1, r - 1))

# Creo matriz de Cramér's V entre variables categóricas
cat_cols = df.select_dtypes(include=['object', 'category']).columns
cramer_matrix = pd.DataFrame(index=cat_cols, columns=cat_cols)

for col1 in cat_cols:
    for col2 in cat_cols:
        if col1 == col2:
            cramer_matrix.loc[col1, col2] = 1.0
        else:
            try:
                cramer_matrix.loc[col1, col2] = cramers_v(df[col1], df[col2])
            except:
                cramer_matrix.loc[col1, col2] = np.nan  # En caso de error (por ejemplo, columnas con un solo valor)

cramer_matrix = cramer_matrix.astype(float)

# Visualizo la matriz como heatmap
plt.figure(figsize=(10, 8))
sns.heatmap(cramer_matrix, annot=True, cmap='YlGnBu', fmt='.2f', linewidths=0.5)
plt.title("Matriz de asociación entre variables categóricas (Cramér's V)")
plt.tight_layout()
plt.show()

### Asociación entre variables categóricas (V de Cramer)

Esta matriz muestra los niveles de asociación entre pares de variables categóricas mediante la **V de Cramer**, que toma valores entre 0 (sin relación) y 1 (asociación perfecta).

---

#### Observaciones clave:

##### Alta asociación entre variables (V > 0.5):
- `housing` y `loan`: **0.71**
- `contact` y `month`: **0.61**

Estas relaciones indican que los valores de una de las variables podrían anticiparse parcialmente con la otra. Puede evaluarse si alguna es redundante o si conviene tratarlas juntas.

---

##### Asociación moderada con la variable objetivo (`y`):
- `poutcome` → `y`: **0.32** ➤ La más asociada con el target.
- `month` → `y`: **0.27**
- `poutcome` → `month`: **0.24**
- `contact` → `y`: **0.14**
- `job` → `y`: **0.15`

Estas variables categóricas pueden ser relevantes para el modelo. Especial atención merece `poutcome`, que parece tener la mayor capacidad explicativa.

---

##### Asociación baja o nula (V < 0.1):
- `day_of_week`, `default`, `loan`, `housing`, `marital` y `education` tienen poca asociación con `y` (V < 0.1).
  - Aunque no se descartan, podrían tener menor prioridad en el modelado o en el análisis exploratorio.

---

#### Recomendaciones que debemos considerar:

-  **Reducir redundancia**:
   Revisar si conviene eliminar una entre `loan` y `housing`, o bien combinarlas.
   Lo mismo aplica para `month` y `contact`.

-  **Seleccionar variables con mayor poder predictivo**:
   Priorizar `poutcome`, `month`, `job`, `contact`.

   Si se usa un modelo como Random Forest o XGBoost, puede conservarse el conjunto completo, pero se recomienda revisar la **importancia de características** luego del entrenamiento.

<a id="section-two-subsection-four"></a>
### **2.4 Segmentaciones por atributos clave**

In [None]:
#En este punto asigno valores numéricos para cada una de los valores posibles que puede adoptar la variable objetivo.
df.y.replace(('no','yes'),(0,1,),inplace=True)
df['y'].value_counts()

In [None]:
# Genero un gráfico de torta de la variable objetivo

target_labels = ['No', 'Yes']
target_counts = [df.y[df.y == 0].count(), df.y[df.y == 1].count()]

explode = (0, 0.25)

plt.figure(figsize=(6,6))
cmap = plt.get_cmap('tab20')
colors = [cmap(i) for i in np.linspace(0, 1, 8)]

# Creo el gráfico
target_pie = plt.pie(
    target_counts,
    labels=target_labels,
    explode=explode,
    autopct='%1.2f%%',
    textprops={'fontsize': 14},
    shadow=True,
    colors=colors
)

# Agrego el título
plt.title('Distribución de la variable objetivo "y"', fontsize=18)

# Agrego una leyenda explicativa
plt.legend(
    labels=["0 = No", "1 = Yes"],
    loc='lower left',
    fontsize=12,
    title="Codificación de y"
)

plt.show()

### Segmentaciones por atributos clave de la variable job

In [None]:
#Obtengo los valores posibles que adopta la variable job
df.job.unique()

In [None]:
#Calculo la proporción de plazos suscriptos para cada valor posible de la columna trabajo
job_proporcion = ((df.y[df.y == 1].groupby(df.job).count())/
                  (df.y.groupby(df.job).count()))*100

In [None]:
# Proporción de plazos suscriptos para cada tipo de trabajo
job_proporcion

In [None]:
# Genero gráfico de la proporción de plazos suscritos (y=1) para cada tipo de trabajo
job_rate = df.groupby('job')['y'].mean().sort_values()

job_rate.plot(
    kind='barh', figsize=(10,6), color='mediumseagreen', edgecolor='black'
)
plt.title('Proporción de éxito (y=1) por ocupación')
plt.xlabel('Proporción de suscripción ("sí")')
plt.ylabel('Ocupación')
plt.grid(True, axis='x')
plt.show()

#### Interpretación:

- **Las ocupaciones con mayor proporción de éxito** (`y=1`) son:
  - `"student"`: ≈ **31%**
  - `"retired"`: ≈ **25%**
  - `"unemployed"`: ≈ **14%**

- **Las ocupaciones con menor proporción de éxito**:
  - `"blue-collar"` y `"services"`: < **10%**
  - `"entrepreneur"`, `"housemaid"`, `"self-employed"`, `"technician"`: también en torno al **10%**


#### Conclusiones preliminares:

- Hay **fuertes diferencias en la tasa de suscripción** según la ocupación.
- **Estudiantes y jubilados son los grupos más propensos a suscribirse**, lo que puede deberse a mayor disponibilidad de tiempo, menor exposición a productos financieros previos o perfil de riesgo conservador.
- Los trabajadores manuales y de servicios presentan **baja tasa de éxito**, posiblemente asociado a menores ingresos, educación financiera o desconfianza en instituciones bancarias.


#### Recomendaciones/Ideas:

- Esta variable es **altamente informativa** y debe incluirse en el modelo.
- Puede ser útil agrupar ocupaciones en **niveles socioeconómicos** o en **segmentos de comportamiento financiero**.
- Analizar si el patrón observado se mantiene en combinación con otras variables como edad o nivel educativo.

### Segmentaciones por atributos clave de la variable age

In [None]:
# Genero gráfico boxplot de la proporción de plazos suscritos (y=1) según edad
plt.figure(figsize=(15,4))
sns.boxplot(x='age', y='y', data=df, orient='h');

In [None]:
# Analizo la correlación entre edad y la variable objetivo
df.age.corr(df.y)

In [None]:
# Reviso si hay correlación entre la variable objetivo frente a la edad y el hecho de que el cliente que sea jubilado
df['age'][df.job == 'retired'].corr(df.y)

In [None]:
# Uso el mismo criterio que la celda anterior pero con clientes que sean de ocupación estudiante.
df['age'][df.job == 'student'].corr(df.y)

#### Interpretación (según el boxplot):

- Los **clientes que se suscribieron (`y = 1`) tienden a ser ligeramente mayores** en promedio que los que no lo hicieron (`y = 0`).
- El rango intercuartílico (Q1–Q3) para `y = 1` está aproximadamente entre los **32 y 50 años**, con una mediana cercana a los **38–39 años**.
- Para `y = 0`, la mediana está más cerca de los **35 años**, y el rango intercuartílico va aproximadamente de **30 a 45 años**.
- Hay **outliers en ambos grupos** que superan los **70 años**, incluso hasta los **90+**, aunque representan una proporción baja del total.

---

#### Conclusiones preliminares:

- La variable `age` presenta una **distribución ligeramente desplazada hacia edades mayores** en los casos positivos (`y = 1`).
- Esto sugiere que **las personas de mayor edad tienen más probabilidad de suscribirse**, aunque la diferencia no es drástica.
- La dispersión es amplia, por lo que podría haber un efecto no lineal (por ejemplo, aumento de probabilidad hasta cierta edad y luego caída).

---

#### Recomendaciones:

- Incluir la variable `age` en el modelo, posiblemente como una **variable continua**.
- Probar si **transformaciones no lineales** (como splines, categorización en tramos, o `age^2`) mejoran la capacidad predictiva.
- También se puede combinar con otras variables como ocupación o estado civil para identificar perfiles específicos por grupo etario.

### Segmentaciones por atributos clave de la variable education

In [None]:
#Calculo la proporción de plazos suscriptos para cada valor posible de la columna educación
edu_proporcion = ((df.y[df.y == 1].groupby(df.education).count())/
                  (df.y.groupby(df.education).count()))*100

In [None]:
# Proporción de plazos suscriptos para cada nivel educativo
edu_proporcion

In [None]:
# Genero gráfico de la proporción de plazos suscritos (y=1) para cada nivel educativo
education_rate = df.groupby('education')['y'].mean().sort_values()

education_rate.plot(
    kind='barh', figsize=(10,6), color='skyblue', edgecolor='black'
)
plt.title('Proporción de éxito (y=1) por nivel educativo')
plt.xlabel('Proporción de suscripción ("sí")')
plt.ylabel('Nivel educativo')
plt.grid(True, axis='x')
plt.show()

#### Interpretación:

- Las **proporciones de suscripción (`y=1`)** varían significativamente según el nivel educativo:
  - `"illiterate"`: ≈ **22%** *(mayor tasa de suscripción)*
  - `"unknown"`: ≈ **14%**
  - `"university.degree"`: ≈ **13.5%**
  - `"professional.course"`, `"high.school"`: ≈ **11–12%**
  - `"basic"` (4y, 6y, 9y): ≈ **8–10%**

---

#### Conclusiones preliminares:

- **Contrariamente a lo esperado**, los clientes analfabetos muestran la **mayor tasa de éxito**. Esto podría deberse a un tamaño muestral pequeño o a campañas especialmente dirigidas a ese grupo.
- En general, a mayor nivel educativo, **mayor probabilidad de suscripción**, aunque no de forma lineal.
- El grupo `"unknown"` tiene una proporción relativamente alta, lo cual sugiere que puede contener información útil y no debería eliminarse sin análisis adicional.

---

#### Recomendaciones/Ideas:

- Esta variable tiene **valor predictivo moderado a alto** y debe incluirse en el modelo.
- Puede ser útil agrupar los niveles en:
  - Bajo (`basic`)
  - Medio (`high.school`, `professional.course`)
  - Alto (`university.degree`)
  - Otros (`illiterate`, `unknown`)

### Segmentaciones por atributos clave de la variable poutcome

In [None]:
#Calculo la proporción de plazos suscriptos para cada valor posible de resultado de la campaña anterior
poutcome_proporcion = ((df.y[df.y == 1].groupby(df.poutcome).count())/
                      (df.y.groupby(df.poutcome).count()))*100

In [None]:
# Proporción de plazos suscriptos según resultados de campañas previas
poutcome_proporcion

In [None]:
# Genero gráfico de la proporción de plazos suscritos (y=1) según resultados de campañas previas
poutcome_rate = df.groupby('poutcome')['y'].mean().sort_values()

poutcome_rate.plot(
    kind='barh', figsize=(9,4), color='mediumvioletred', edgecolor='black'
)
plt.title('Proporción de éxito (y=1) según resultado de campaña anterior')
plt.xlabel('Proporción de suscripción ("sí")')
plt.ylabel('Resultado campaña anterior')
plt.grid(True, axis='x')
plt.show()

#### Interpretación:

- La **proporción de suscripción (`y=1`)** varía significativamente según el resultado de la campaña anterior:
  - `"success"`: ≈ **65%**
  - `"failure"`: ≈ **13%**
  - `"nonexistent"`: ≈ **9%**

---

#### Conclusiones preliminares:

- Si la campaña anterior fue **exitosa**, hay **alta probabilidad de que el cliente vuelva a suscribirse** (~65%).
- Si la campaña **no existió** o fue un **fracaso**, la probabilidad de éxito actual baja mucho.
- Esta variable **es altamente informativa** y podría ser una de las más relevantes para predecir la variable objetivo.

---

#### Recomendaciones/Ideas:

- Incluir esta variable en el modelo predictivo como un factor clave.
- Puede ser útil generar una variable binaria adicional que indique si el cliente tuvo una campaña previa o no.
- También puede ser útil explorar interacciones con el número de contactos o canal de comunicación para profundizar el análisis.

### Segmentaciones por atributos clave de la variable marital

In [None]:
#Calculo la proporción de plazos suscriptos para cada valor posible de estado civil
marital_proporcion = ((df.y[df.y == 1].groupby(df.marital).count())/
                      (df.y.groupby(df.marital).count()))*100

In [None]:
# Proporción de plazos suscriptos para cada valor posible de estado civil
marital_proporcion

In [None]:
# Genero gráfico de la proporción de plazos suscritos (y=1) para cada valor posible de estado civil
marital_rate = df.groupby('marital')['y'].mean().sort_values()

marital_rate.plot(
    kind='barh', figsize=(10,6), color='salmon', edgecolor='black'
)
plt.title('Proporción de éxito (y=1) por estado civil')
plt.xlabel('Proporción de suscripción ("sí")')
plt.ylabel('Estado civil')
plt.grid(True, axis='x')
plt.show()

#### Interpretación:

- La **proporción de suscripción (`y=1`)** varía levemente según el estado civil:
  - `"unknown"`: ≈ **15%**
  - `"single"`: ≈ **14%**
  - `"divorced"`: ≈ **10.3%**
  - `"married"`: ≈ **10.2%**

---

#### Conclusiones preliminares:

- Las personas **solteras o con estado civil desconocido** presentan **mayor tasa de suscripción** al depósito a plazo fijo.
- Los **clientes casados o divorciados** muestran proporciones más bajas de éxito.
- Aunque las diferencias no son enormes, esta variable podría aportar **valor moderado** al modelo.

---

#### Recomendaciones/Ideas:

- Considerar esta variable como parte del modelo, especialmente si se combina con edad o ingresos.
- Evaluar si la categoría `"unknown"` está sesgada hacia algún segmento particular (por ejemplo, omisiones sistemáticas en ciertas edades o profesiones).
- Posible transformación: agrupar `"married"` y `"divorced"` como "no solteros", si mejora la capacidad predictiva del modelo.

### Segmentaciones por atributos clave de la variable default

In [None]:
#Calculo la proporción de plazos suscriptos para cada valor posible de default
default_proporcion = ((df.y[df.y == 1].groupby(df.default).count())/
                      (df.y.groupby(df.default).count()))*100

In [None]:
# Proporción de plazos suscriptos para cada valor posible de default
default_proporcion

In [None]:
# Genero gráfico de la proporción de plazos suscritos (y=1) para cada valor posible de default
default_rate = df.groupby('default')['y'].mean().sort_values()

default_rate.plot(
    kind='barh', figsize=(8,4), color='tomato', edgecolor='black'
)
plt.title('Proporción de éxito (y=1) según historial de default')
plt.xlabel('Proporción de suscripción ("sí")')
plt.ylabel('¿Tiene créditos en default?')
plt.grid(True, axis='x')
plt.show()

#### Interpretación:

- **Proporción de suscripción (`y=1`)** por categoría:
  - `"no"`: ≈ **12.9%**
  - `"unknown"`: ≈ **5.1%**
  - `"yes"`: ≈ **0%** *(sin suscripciones en esta categoría)*

---

#### Conclusiones preliminares:

- **Clientes sin historial de default (`no`) tienen la mayor tasa de éxito**, lo cual es esperable.
- **Ningún cliente con historial de default (`yes`) se ha suscrito**, lo que indica una **relación fuertemente negativa** con la variable objetivo.
- `"unknown"` tiene una proporción intermedia pero significativamente más baja que `"no"`, lo que sugiere cierta incertidumbre o desconfianza.

---

#### Recomendaciones/Ideas:

- Esta variable tiene **alto poder discriminante** y debe ser considerada clave en el modelo.
- El valor `"yes"` puede ser un indicador crítico para **segmentar negativamente** la base de clientes.
- Verificar el tamaño del grupo `"yes"`: si es muy pequeño, su impacto podría ser limitado pero igualmente útil para reglas de negocio.
- Considerar imputar o categorizar `"unknown"` si se puede cruzar con otras variables de comportamiento financiero.

### Segmentaciones por atributos clave de la variable housing

In [None]:
#Calculo la proporción de plazos suscriptos para cada valor posible de housing
housing_proporcion = ((df.y[df.y == 1].groupby(df.housing).count())/
                      (df.y.groupby(df.housing).count()))*100

In [None]:
# Proporción de plazos suscriptos para cada valor posible de housing
housing_proporcion

In [None]:
# Genero gráfico de la proporción de plazos suscritos (y=1) para cada valor posible de housing
housing_rate = df.groupby('housing')['y'].mean().sort_values()

housing_rate.plot(
    kind='barh', figsize=(8,4), color='steelblue', edgecolor='black'
)
plt.title('Proporción de éxito (y=1) según tenencia de préstamo hipotecario')
plt.xlabel('Proporción de suscripción ("sí")')
plt.ylabel('¿Tiene préstamo hipotecario?')
plt.grid(True, axis='x')
plt.show()

#### Interpretación:

- Las **proporciones de suscripción (`y=1`)** son similares entre las categorías:
  - `"yes"`: ≈ **11.6%**
  - `"no"`: ≈ **11.0%**
  - `"unknown"`: ≈ **10.9%**

---

#### Conclusiones preliminares:

- La tenencia de un **préstamo hipotecario no parece ser un factor decisivo** para predecir si un cliente se suscribirá.
- Las diferencias entre las categorías son **muy pequeñas**, por lo tanto esta variable tiene **bajo poder discriminante** por sí sola.

---

#### Recomendaciones/Ideas:

- Esta variable podría **no tener un impacto fuerte de manera individual**, pero aún así incluirla en el modelo puede aportar valor en combinación con otras variables (por ejemplo: ingresos, edad, ocupación).
- Es recomendable revisar si la categoría `"unknown"` representa un grupo particular de clientes, o simplemente datos faltantes que pueden ser imputados o tratados como una categoría aparte.
- Considerar la creación de una variable binaria simplificada (`tiene_prestamo_hipotecario`) si se busca reducir dimensionalidad sin pérdida de información.



### Segmentaciones por atributos clave de la variable loan

In [None]:
#Calculo la proporción de plazos suscriptos para cada valor posible de loan
loan_proporcion = ((df.y[df.y == 1].groupby(df.loan).count())/
                   (df.y.groupby(df.loan).count()))*100

In [None]:
# Proporción de plazos suscriptos para cada valor posible de loan
loan_proporcion

In [None]:
# Genero gráfico de la proporción de plazos suscritos (y=1) para cada valor posible de loan
loan_rate = df.groupby('loan')['y'].mean().sort_values()

loan_rate.plot(
    kind='barh', figsize=(8,4), color='darkorange', edgecolor='black'
)
plt.title('Proporción de éxito (y=1) según tenencia de préstamo personal')
plt.xlabel('Proporción de suscripción ("sí")')
plt.ylabel('¿Tiene préstamo personal?')
plt.grid(True, axis='x')
plt.show()

#### Interpretación:

- La **proporción de suscripción (`y=1`)** es muy similar entre las tres categorías:
  - `"no"`: ~10.9%
  - `"yes"`: ~10.7%
  - `"unknown"`: ~10.6%

---

#### Conclusiones preliminares:

- La **tenencia de un préstamo personal no parece tener una influencia clara** sobre la probabilidad de suscripción. Las diferencias son mínimas.
- Esta variable **no discrimina bien** entre quienes se suscriben y quienes no.
- La categoría `"unknown"` tiene una proporción levemente más baja, aunque esto podría deberse a ruido o falta de datos.

---

#### Recomendaciones/Ideas:

- Esta variable **podría tener baja importancia predictiva** en un modelo de clasificación.
- Se recomienda explorar **interacciones con otras variables** (por ejemplo: edad, ingresos, estado civil) para detectar posibles patrones no lineales.
- Evaluar si el valor `"unknown"` debe imputarse o conservarse como categoría separada, según el análisis de los datos faltantes.

<a id="section-two-subsection-five"></a>
### **2.5 Insights preliminares**

#### A) Información general
- El conjunto de datos contiene **21 variables** y **41.176 registros**.
- No se detectan **valores nulos explícitos** ni **duplicados**, lo cual indica una buena calidad inicial del dataset.
- Se identifican **10 variables numéricas**, **10 categóricas** y **1 booleana**.

#### B) Variable objetivo (`y`)
- La variable objetivo está **desbalanceada**, con una distribución marcada hacia la clase negativa (`no`), lo que implica la necesidad de utilizar **técnicas de balanceo** (como sobremuestreo, submuestreo o SMOTE) en la etapa de modelado.

#### C) Valores atípicos y dominantes
- La variable `pdays` muestra un valor dominante de **999**, que denota ausencia de contacto previo. Se deberá derivar una **variable binaria (`was_contacted`)** a partir de esta.
- `campaign` y `previous` presentan distribuciones con valores extremos o altamente sesgadas, lo que sugiere la existencia de **outliers** que deben ser tratados o analizados.
- `age` tiene un rango amplio (hasta 98 años), por lo que podría resultar útil **agrupar en tramos etarios** para facilitar su análisis e interpretación.

#### D) Variables categóricas con valores `unknown`
- Varias variables categóricas contienen el valor `'unknown'`, lo que representa **valores faltantes implícitos**. En particular:
  - `default`, `education`, `job`, `contact`, `poutcome` y `housing`.
- Evaluar si estos valores deben tratarse adecuadamente mediante **imputación, recategorización o exclusión**, dependiendo del análisis.

#### E) Correlaciones relevantes
- Se observan **altas correlaciones** entre variables macroeconómicas, como:
  - `euribor3m` y `nr.employed`.
  - `emp.var.rate` y `euribor3m`.
- Esto sugiere **redundancia de información** y puede evaluarse el uso de **reducción de dimensionalidad** (PCA) o selección de atributos.

#### F) Recomendaciones/Ideas generales para secciones posteriores
- Debemos pensar si se deberán tratar explícitamente los valores `'unknown'` como datos faltantes.
- Crear variables derivadas útiles (por ejemplo, binarizar `pdays` y agrupar `age`).
- Abordar el desequilibrio de la variable objetivo antes del modelado.
- Analizar y mitigar el impacto de valores extremos en algunas variables clave.
- Evaluar la pertinencia de mantener variables altamente correlacionadas o aplicar técnicas de reducción.

<a id="section-three"></a>
<h2><strong>3 - PREPROCESAMIENTO DE DATOS</strong></h2>

<div style="text-align: center;">
A partir de aquí, comienzo a realizar una serie de preprocesamientos sobre el dataframe df para adecuar los datos.  

Algunas modificaciones involucran:  
- **Imputación o modificación de valores faltantes o inconsistentes (tanto explícitos como implícitos)**,
- **Encoding de variables categóricas**,
- **Transformación de variables numéricas**
  
Posteriormente, se realizarán tareas de **feature engineering**, donde se buscará crear nuevas variables derivadas o transformar las existentes para mejorar el rendimiento del modelo.  
</div>

<a id="section-three-subsection-one"></a>
### **3.1 Tratamiento de valores faltantes o inconsistentes**

### Imputación de valores faltantes en job

Ahora, para inferir los valores faltantes en "job" y "education", utilizo la tabulación cruzada entre ambos. La hipótesis a considerar es que el "job" se ve influenciado por la "education" de una persona. Por lo tanto, es factible inferir "job" basándose en el nivel educativo de la persona.

In [None]:
# Genero una función para una tabla cruzada entre dos variables categóricas del DataFrame.
# Para cada categoría de la segunda variable (f2), se calcula cuántas veces aparece cada categoría de la primera variable (f1).
# Devuelve un DataFrame donde las filas son las categorías de f1, las columnas son las de f2, y los valores representan los conteos.
def cross_tab(df,f1,f2):
    jobs=list(df[f1].unique())
    edu=list(df[f2].unique())
    dataframes=[]
    for e in edu:
        dfe=df[df[f2]==e]
        dfejob=dfe.groupby(f1).count()[f2]
        dataframes.append(dfejob)
    xx=pd.concat(dataframes,axis=1)
    xx.columns=edu
    xx=xx.fillna(0)
    return xx

In [None]:
# Ahora, muestro la cantidad de personas por combinación de job y education.
cross_tab(df,'job','education')

También propongo que personas cuya edad sea mayor a 60 probablemente sea jubilado(retired) en caso de ser desconocida su situación.

In [None]:
# Distribución de categorías de job entre personas mayores de 60 años.
df['job'][df['age']>60].value_counts()

**Inferir la educación a partir de los empleos**: De la tabulación cruzada, se observa que las personas con puestos directivos suelen tener un título universitario. Por lo tanto, donde 'job' = management y 'education' = unknown, podemos sustituir 'education' por 'university.degree'. De forma similar, 'job' = 'services' --> 'education' = 'high.school' y 'job' = 'housemaid' --> 'education' = 'basic.4y'.

**Inferir los empleos a partir de la educación**: Si 'education' = 'basic.4y', 'basic.6y' o 'basic.9y', el 'job' suele ser 'blue-collar'. Si 'education' = 'professional.course', el 'job' es 'technician'.

**Inferir los empleos a partir de la edad**: Como se ve, si 'age' > 60, el 'job' es 'retireed', lo cual tiene sentido.

Al imputar los valores de empleo y educación, tuve en cuenta que las correlaciones debían ser coherentes con la realidad. Si no lo eran, no reemplazaba los valores faltantes.

In [None]:
#Genero una serie de transformaciones que imputen valores en 'job' cuando se den ciertas condiciones en otras variables
df.loc[(df['age']>60) & (df['job']=='unknown'), 'job'] = 'retired'
df.loc[(df['education']=='unknown') & (df['job']=='management'), 'education'] = 'university.degree'
df.loc[(df['education']=='unknown') & (df['job']=='services'), 'education'] = 'high.school'
df.loc[(df['education']=='unknown') & (df['job']=='housemaid'), 'education'] = 'basic.4y'
df.loc[(df['job'] == 'unknown') & (df['education']=='basic.4y'), 'job'] = 'blue-collar'
df.loc[(df['job'] == 'unknown') & (df['education']=='basic.6y'), 'job'] = 'blue-collar'
df.loc[(df['job'] == 'unknown') & (df['education']=='basic.9y'), 'job'] = 'blue-collar'
df.loc[(df['job']=='unknown') & (df['education']=='professional.course'), 'job'] = 'technician'

In [None]:
# Vuelvo a mostrar la cantidad de personas por combinación de job y education.
cross_tab(df,'job','education')

De esta manera, se reduce el número de 'unknowns' y mejoro el dataset.

### Imputación valores faltantes pdays

Según la fuente de los datos (Repositorio de ML de U.C. Irvine), los valores faltantes, o NaN, se codifican como '999'. De la tabla anterior, se desprende claramente que solo 'pdays' presenta valores faltantes. Además y en virtud a lo arriba explicitado, la mayoría de los valores de 'pdays' están faltantes.

In [None]:
# Uso esta función para crear un histograma con matplotlib para visualizar la distribución de una variable numérica.
def drawhist(df, feature):
    plt.hist(df[feature], bins=20, edgecolor='black')
    plt.title(f'Distribución de {feature}')
    plt.xlabel(feature)
    plt.ylabel('Frecuencia')
    plt.show()

In [None]:
# Muestro el histograma de la variable 'pdays', incluyendo todos los valores (incluido 999).
drawhist(df,'pdays')
plt.show()
# Muestro el histograma de 'pdays' excluyendo los valores 999 (que indican que no hubo contacto previo).
plt.hist(df.loc[df.pdays != 999, 'pdays'])
plt.show()

In [None]:
# Creo una tabla cruzada entre 'pdays' y 'poutcome', mostrando la proporción (normalizada) de registros por combinación.
# Se usa 'age' como columna de referencia solo para contar, sin afectar el resultado.
pd.crosstab(df['pdays'],df['poutcome'], values=df['age'], aggfunc='count', normalize=True)

Como se puede observar en la tabla anterior, la mayoría de los valores de "pdays" faltan. La mayoría de estos valores faltantes se producen cuando el "poutcome" es un valor faltante. Esto significa que la mayoría de los valores de "pdays" faltan porque nunca se contactó al cliente. 
Para abordar esta variable, se elimina la variable numérica "pdays" y se la reemplaza por el valor 0.

In [None]:
# Transformación de los valores 999 de la variable 'pdays'
df['pdays'] = df.pdays.map(lambda x: 0 if x == 999 else x)

In [None]:
# Muestro nuevamente el histograma de la variable 'pdays', incluyendo todos los valores (incluido 999).
drawhist(df,'pdays')
plt.show()
# Muestro nuevamente el histograma de 'pdays' excluyendo los valores 999 (que indican que no hubo contacto previo).
plt.hist(df.loc[df.pdays != 999, 'pdays'])
plt.show()

### Nota sobre Valores atípicos 

Los valores atípicos se definen como 1,5 x valor Q3 (percentil 75). De las visualizaciones y análisis en la etapa de EDA, se observa que solo 'age' y 'campaign' presentan valores atípicos como max('age') y max('campaign') > 1,5Q3('age') y >1,5Q3('campaign'), respectivamente.

Pero también observamos que el valor de estos valores atípicos es bastante realista (max('age') = 98 y max('campaign') = 56). Por lo tanto, no es necesario eliminarlos, ya que el modelo de predicción debe representar el mundo real. Esto mejora la generalización del modelo y lo hace robusto para situaciones reales. Por lo tanto y en este caso, los valores atípicos no se eliminarán.

<a id="section-three-subsection-two"></a>
### **3.2 Encoding de variables categóricas**

### Encoding de las variables relativas a días de la semana y meses del año  

Dado que tanto los días de la semana como los meses poseen un ordenamiento,considero codificarlos según su orden natural.
Pero en primer lugar procedo a visualizar la distribución de valores para cada variable.

In [None]:
#Reviso la distribución de valores en la variable month
df['month'].value_counts()

In [None]:
#Reviso la distribución de valores en la variable day_of_week
df['day_of_week'].value_counts()

In [None]:
# En la variable  month y day_of_week, cambio sus valores categóricos (y en string) por valores numéricos.
#Esta transformación con los números respectivos para los meses y días suele usarse para el paso de este tipo de variables categóricas a numéricas. 

df.month.replace(('jan','feb','mar','apr','may','jun','jul','aug','sep','oct','nov','dec'),
                      (1,2,3,4,5,6,7,8,9,10,11,12),inplace=True)
df.day_of_week.replace(('mon','tue','wed','thu','fri','sat','sun'),
                      (1,2,3,4,5,6,7),inplace=True)

In [None]:
#Reviso que la transfomración de la variable month haya sido exitosa 
df['month'].value_counts()

In [None]:
#Reviso que la transfomración de la variable day_of_week haya sido exitosa 
df['day_of_week'].value_counts()

<a id="section-three-subsection-three"></a>
### **3.3 Transformaciones de variables numéricas**

En sección me propongo transformar aquella variable numérica que pueda beneficiarse de dicho procesamiento.

In [None]:
#Extraigo las variables numéricas del dataset y obtengo información relevante para analizar
numerical_variables = ['age','campaign', 'pdays', 'previous', 'emp.var.rate', 'cons.price.idx','cons.conf.idx','euribor3m',
                      'nr.employed']
df[numerical_variables].describe()

Observo que la variable 'age' posee una gran amplitud,la cual podría segmentarse en una nueva variable asociada.

In [None]:
# Defino los límites de edad para cada grupo y sus etiquetas
bins = [0, 25, 40, 60, 140]
labels = ['young', 'lower middle aged', 'middle aged', 'senior']

# Genero la columna 'age_binned' con los grupos etiquetados sobre la columna 'age'
df['age_binned'] = pd.cut(df['age'], bins=bins, labels=labels, right=True, include_lowest=True)

# Verifico la distribución por grupos resultantes
df['age_binned'].value_counts()

<a id="section-four"></a>
<h2><strong>4 - INGENIERÍA DE CARACTERÍSTICAS</strong></h2>

### Ingeniería de Características

En esta sección se generan las variables que serán utilizadas por los modelos de *machine learning*. La ingeniería de características consiste en transformar, crear o seleccionar atributos a partir del conjunto de datos original, con el objetivo de mejorar el rendimiento del modelo y capturar relaciones relevantes entre las variables.
Estas transformaciones no solo buscan mejorar la precisión, sino también la interpretabilidad y eficiencia del modelo.

### Análisis de correlación entre variables numéricas relevantes

In [None]:
# Selección de variables
M = df[['emp.var.rate', 'cons.price.idx', 'cons.conf.idx', 'euribor3m',
        'nr.employed', 'campaign', 'pdays', 'previous', 'y']]

# Figura y máscara
fig, ax = plt.subplots(figsize=(12, 10))
mask = np.triu(np.ones_like(M.corr(), dtype=bool))

# Heatmap
sns.heatmap(M.corr(), mask=mask, annot=True, cmap='coolwarm',
            fmt=".2f", linewidths=0.5, cbar_kws={"shrink": 0.8}, ax=ax)

# Ajustes para evitar recortes
plt.title("Matriz de correlación entre variables numéricas seleccionadas", fontsize=14, pad=12)
plt.xticks(rotation=45, ha='right')
plt.yticks(rotation=0)
ax.set_ylim(len(M.columns), 0)     #  Fuerzo que aparezca el eje Y completo
plt.tight_layout()                 #  Ajuste general de espaciado

plt.show()

### Análisis de correlación entre variables numéricas

Se construyó una matriz de correlación para examinar la relación lineal entre las variables numéricas seleccionadas, incluyendo la variable objetivo `y`.

A partir del heatmap generado, se pueden destacar los siguientes hallazgos relevantes:

- **Alta correlación positiva** entre:
  - `euribor3m` y `emp.var.rate` (**r = 0.97**)
  - `euribor3m` y `nr.employed` (**r = 0.94**)
  - `emp.var.rate` y `nr.employed` (**r = 0.91**)

  Estas asociaciones indican una fuerte redundancia entre variables macroeconómicas, lo que podría justificar la eliminación de alguna de ellas o la aplicación de técnicas de reducción de dimensionalidad.

- **Correlaciones con la variable objetivo `y`**:
  - `euribor3m` (**r = -0.31**)
  - `nr.employed` (**r = -0.35**)
  - `emp.var.rate` (**r = -0.30**)
  - `pdays` (**r = 0.27**)
  - `previous` (**r = 0.23**)

  Estas variables muestran correlaciones más relevantes con el resultado de la campaña (`y`), por lo que podrían tener valor predictivo en etapas posteriores del modelado.

- **Variables como `campaign` y `cons.conf.idx` presentan baja correlación lineal** con el resto de las variables, lo que sugiere independencia lineal, aunque podrían aportar desde otras perspectivas no lineales.

En conjunto, este análisis de correlación permite identificar tanto redundancias como posibles variables relevantes, lo que guiará decisiones de selección y transformación de atributos en las próximas etapas del proyecto.


<a id="section-four-subsection-one"></a>
### **4.1 Agrupaciones o transformaciones lógicas**

### Agrupación de valores en variable job

In [None]:
# Agrupación de valores en variable job
df["job"].value_counts(normalize=True)

In [None]:
# Creo un diccionario para agrupar las categorías de la variable 'job' en grupos más generales e interpretables.
job_map = {
    'admin.': 'White-collar',
    'management': 'White-collar',
    'technician': 'White-collar',
    
    'blue-collar': 'Blue-collar',
    'services': 'Blue-collar',
    'housemaid': 'Blue-collar',
    
    'entrepreneur': 'Self-employed',
    'self-employed': 'Self-employed',
    
    'retired': 'Non-active',
    'student': 'Non-active',
    'unemployed': 'Non-active',
    
    'unknown': 'Other'
}

# Aplico el mapeo a la columna 'job' para crear una nueva variable agrupada: 'job_grouped'.
df['job_grouped'] = df['job'].map(job_map)

# Verifico las nuevas proporciones
df['job_grouped'].value_counts()

### Agrupación de valores en variable education

In [None]:
# Agrupación de valores en variable education
df['education'].value_counts()

In [None]:
# Al igual que con job, defino mapeo a categorías agrupadas
education_map = {
    'basic.9y': 'Basic',
    'basic.4y': 'Basic',
    'basic.6y': 'Basic',
    'high.school': 'Middle',
    'professional.course': 'Middle',
    'university.degree': 'Superior',
    'unknown': 'Other',
    'illiterate': 'Other'
}

# Aplico la creación de la nueva variable agrupada
df['education_grouped'] = df['education'].map(education_map)

# Verifico el conteo
df['education_grouped'].value_counts()

<a id="section-four-subsection-two"></a>
### **4.2 Generación de nuevas variables derivadas**

A partir de variables ya establecidas, procedo a generar algunas variables derivadas que puedan enriquecer y potenciar mi dataset.

### Generación de variable para identificar existencia o no de contactos previos con el cliente.

Habida cuenta que existe una alta presencia (mayoritaria incluso) de valores 0 en la variable 'previous'; decido generar una variable derivada.
Esta nueva variable permitirá identificar si el cliente ha sido contactado previamente, al menos 1 vez.

In [None]:
# Creación de variable contacted_previously (contactado previamente). Si el cliente tuvo al menos 1 contacto previo su valor será 1, sino será 0
df['contacted_previously'] = (df['previous'] >= 1).astype(int)

In [None]:
df['contacted_previously'].value_counts()

### Generación de variable para combinar simultáneamente la edad y estado civil del cliente.

En este caso genero una variable adicional que concatena los valores de 'age_binned' y 'marital' para así mostrar una mayor dimensionalidad del cliente.

In [None]:
#Creo variable 'life_stage' que se obtiene al concatenar el segmento etario y el estado civil.
df['life_stage'] = df['age_binned'].astype(str) + ' & ' + df['marital']
#Cuento los valores resultantes para la nueva variable
df['life_stage'].value_counts() 

### Generación de variable para combinar simultáneamente el empleo y nivel educativo del cliente.

En este caso genero una variable adicional que concatena los valores de 'job' y 'education' para así mostrar una mayor dimensionalidad del cliente.

In [None]:
#Creo variable 'socio-economic' que se obtiene al concatenar el oficio/trabajo y el grado educativo obtenido.
df['socio-economic'] = df['job'].astype(str) + ' & ' + df['education']
#Cuento los valores resultantes para la nueva variable
df['socio-economic'].value_counts() 

<a id="section-four-subsection-three"></a>
### **4.3 Eliminación de variables redundantes**

En esta sección procedo a eliminar una de las variables macroeconómicas que observé que podríaser redundante durante el EDA.

In [None]:
# Eliminación de variable macroeconómica redundante
df.drop(columns=['nr.employed'], inplace=True)

# Verificación de que la columna fue efectivamente eliminada
print("Columnas actuales en el DataFrame:")
print(df.columns.tolist())

### Eliminación de variable macroeconómica con baja relevancia o redundancia

Como parte del proceso de selección de variables, se identificó y eliminó la siguiente variable macroeconómica del conjunto de datos:

- `nr.employed`

La decisión se basó en los siguientes criterios:

1. **Redundancia por alta correlación entre variables**  
   - `nr.employed` presentó una **alta correlación** con `emp.var.rate` (r = 0.91) y `euribor3m` (r = 0.94).
   - Estas tres variables capturan información económica muy similar, lo cual puede generar problemas de **multicolinealidad**.
   - Se optó por conservar `euribor3m`, que mostró la **mayor correlación con la variable objetivo `y`** y ofrece una interpretación macroeconómica relevante.


2. **Interpretabilidad limitada**  
   - Esta variable representa índices económicos agregados cuya relación directa con la decisión del cliente bancario es difusa.
   - En un enfoque orientado a la explicación y claridad de resultados, se priorizaron variables más fácilmente interpretables.

En consecuencia, se decidió eliminar esta variable para **reducir la dimensionalidad**, **minimizar redundancias** y **conservar únicamente aquellas variables con mayor relevancia estadística y práctica** para el análisis y modelado predictivo.

<a id="section-four-subsection-four"></a>
### **4.4 Encoding de variables categóricas (OneHotEncoder)**

En esta sección se realiza la codificación **One-Hot Encoding** sobre las variables categóricas seleccionadas (`cat_cols1`). Esta técnica transforma cada categoría en una nueva columna binaria (0 o 1), permitiendo que los modelos de machine learning puedan procesar variables categóricas de manera adecuada.

Finalmente, se eliminan las columnas categóricas originales y se agregan las columnas codificadas al DataFrame principal, manteniendo la correspondencia de índices para preservar la integridad de los datos.

In [None]:
# Primero obtengo las variables categóricas del dataframe
cat_cols1= df.select_dtypes(include=['object','category']).columns

In [None]:
#Reviso cuáles variables se encuentran almacenadas en cat_cols1
cat_cols1

In [None]:
#Observo los tipos de datos de cada variable, antes de efectuar el encoding con OneHotEncoder.
df.info()

In [None]:
# Inicializo OneHotEncoder con algunos parámetros clave:
# - sparse_output=False: Devuelve un array denso (para mejor compatibilidad con pandas)
# - handle_unknown='ignore': Permitirá manejar categorías no vistas durante el entrenamiento
ohe = OneHotEncoder(sparse_output=False, handle_unknown='ignore')

# Realizo una conversión preventiva a string para evitar errores con tipos mixtos
df[cat_cols1] = df[cat_cols1].astype(str)

# Aplico el ajuste y transformación
ohe_array = ohe.fit_transform(df[cat_cols1])
ohe_columns = ohe.get_feature_names_out(cat_cols1)

# Efectúo la reconstrucción del DataFrame:
df_ohe = pd.DataFrame(ohe_array, columns=ohe_columns, index=df.index)# 1. Creo DF con las nuevas columnas one-hot (manteniendo el índice original)
df.drop(columns=cat_cols1, inplace=True) # 2. Elimino columnas categóricas originales
df = pd.concat([df, df_ohe], axis=1) # 3. Concateno con el DataFrame original

# Hago el guardado del encoder para producción debido a que:
# - Es útil para aplicar la misma transformación a nuevos datos
# - El formato .pkl mantiene todos los parámetros aprendidos
onehot_encoder = ohe
joblib.dump(onehot_encoder, 'onehot_encoder.pkl')

In [None]:
#Reviso por última vez los tipos de datos de cada variable, luego de efectuar el encoding con OneHotEncoder.
df.info()

<a id="section-five"></a>
<h2><strong>5 - MODELADO PREDICTIVO</strong></h2>

<div style="text-align: center;">
Ahora que poseo los elementos necesarios para alimentar esta primera etapa de modelización de ML, genero una división de los datos estratificada según la variable objetivo, para luego pasarle al modelo y validar su eficiencia.
</div>

<a id="section-five-subsection-one"></a>
### 5.1 - División del conjunto en entrenamiento y test

In [None]:
# Divido el dataset en entrenamiento y prueba (80% train, 20% test) Y estratificado según variable objetivo
X_train, X_test, y_train, y_test = train_test_split(df.drop('y',axis=1),
                                                    df.y,
                                                    test_size=0.2,
                                                    random_state=42,
                                                    stratify = df.y)

In [None]:
#Reviso cómo ha quedado la división X_train
X_train

In [None]:
#Reviso cómo ha quedado la división X_test
X_test

In [None]:
#Reviso cómo ha quedado la división y_train
y_train

In [None]:
#Reviso cómo ha quedado la división y_test
y_test


### Selección automática de features

La selección de variables es una etapa clave en todo proceso de modelado predictivo, ya que permite reducir la dimensionalidad del conjunto de datos, eliminar redundancias y mejorar el rendimiento de los modelos. Para este trabajo se testearon distintos métodos de selección automática, tales como SelectKBest, importancia de variables basada en modelos (como Random Forest y XGBoost), y enfoques recursivos como RFECV (el cual se terminó seleccionando como el método con mejor rendimiento). 
Estas técnicas ayudan a identificar las características más relevantes que explican la variable objetivo, optimizando así tanto la capacidad predictiva como la interpretabilidad del modelo final.

In [None]:
#Vuelvo a generar un heatmap (mapa de calor) de las correlaciones entre las variables numéricas del DataFrame previo
#Esto(ahora que poseo todas las variables como numéricas) puede permitirme analizar las posiblidades sobre selección de variables.
%matplotlib inline
df_correlacion = df.select_dtypes(include=['number'])
correlation_mat = df_correlacion.corr()
sns.heatmap(correlation_mat)
plt.show()

Del análisis del mapa de calor de correlaciones se puede aventurar que no se identifican pares de variables con alta correlación (por ejemplo, |r| > 0.85) que justifiquen su eliminación. En general, las correlaciones entre variables numéricas son bajas, lo que indica que cada atributo aporta información relativamente independiente. Esta observación respaldaría la inclusión de una cantidad mayor de variables a las esperadas en etapas posteriores del modelado.

A continuación y para optimizar el conjunto de variables utilizadas en el modelo, se aplicó el método Recursive Feature Elimination with Cross-Validation (RFECV) utilizando un clasificador XGBoost como estimador base. Esta técnica evalúa recursivamente la importancia de las variables, eliminando en cada iteración la menos relevante, y valida el desempeño a través de validación cruzada estratificada con 5 particiones. Como métrica de evaluación se empleó el F1-score, debido al desbalance de clases presente en el dataset. El proceso permitió identificar el subconjunto de variables más relevantes para la tarea de clasificación, lo que contribuye a reducir la complejidad del modelo, mejorar su interpretabilidad y potencialmente mitigar el riesgo de sobreajuste.

In [None]:
# Empleo modelo base con XGBoost
modelo_xgb = XGBClassifier(
    use_label_encoder=False,
    eval_metric='logloss',
    random_state=42,
    scale_pos_weight=7.85  
)

# Realizo la validación cruzada estratificada
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Ejecuto RFECV
selector_rfecv = RFECV(
    estimator=modelo_xgb,
    step=1,
    cv=cv,
    scoring='f1',
    n_jobs=-1,
    verbose=2
)
selector_rfecv.fit(X_train, y_train)

# Obtengo las features seleccionadas
selected_features_rfecv = X_train.columns[selector_rfecv.support_].tolist()
print(f"Se seleccionaron {len(selected_features_rfecv)} variables:")
print(selected_features_rfecv)

Como resultado, el algoritmo seleccionó un total de **108 variables** de un total inicial de 162.

Entre las variables seleccionadas se incluyen:
- Variables originales: `age`, `month`, `duration`, `emp.var.rate`, etc.
- Variables transformadas y codificadas: `job_admin.`, `housing_yes`, `poutcome_success`, etc.
- Variables creadas durante el preprocesamiento: `age_binned_middle aged`, `job_grouped_White-collar`, `socio-economic_management & university.degree`, entre otras.

Estas variables seleccionadas se utilizaron en el pipeline final para entrenar el modelo definitivo.

In [None]:
# Guardo la lista de features seleccionadas para un potencial uso posterior
joblib.dump(selected_features_rfecv, 'selected_features_rfecv.pkl')

In [None]:
# Aplico las mismas características seleccionadas al conjunto de train y test para mantener la consistencia en el espacio de características
X_train = X_train[selected_features_rfecv] # Filtro solo las features seleccionadas en el train
X_test = X_test[selected_features_rfecv] # Aplico el mismo filtro al test set

### Escalado de los datos

El escalado es una etapa clave del preprocesamiento, especialmente cuando se utilizan modelos sensibles a la magnitud de las variables. En este TFM, las variables numéricas como la duración de llamada, la edad o el número de contactos presentan distintas escalas, lo que podría sesgar el modelo.

Para garantizar que cada variable contribuya equitativamente al aprendizaje, se aplica `MinMaxScaler`, que normaliza los valores en un rango de 0 a 1. Esto mejora la estabilidad del modelo, acelera la convergencia y evita que variables con mayor rango dominen el proceso de entrenamiento.

In [None]:
# Inicializo el escalador MinMax para normalizar los datos al rango [0, 1]
scaler = MinMaxScaler()

# Guardo los índices y columnas originales
columns = X_train.columns # Nombres originales de las features
index_train = X_train.index # Índices del conjunto de entrenamiento
index_test = X_test.index # Índices del conjunto de prueba

# Escalo y reconstruyo los DataFrames con nombres
X_train = pd.DataFrame(scaler.fit_transform(X_train), columns=columns, index=index_train)
X_test = pd.DataFrame(scaler.transform(X_test), columns=columns, index=index_test)

# Guardo el scaler en formato pkl
joblib.dump(scaler, 'minmax_scaler.pkl')

### Balanceo de los datos

El dataset presenta un fuerte desbalance entre las clases: la mayoría de los clientes no contrata el depósito, mientras que solo un pequeño porcentaje sí lo hace. Esta desproporción puede sesgar al modelo hacia la clase mayoritaria, afectando negativamente su capacidad para identificar correctamente los casos positivos.

Para abordar este problema, se aplica la técnica de sobremuestreo **SMOTE (Synthetic Minority Over-sampling Technique)**, que genera ejemplos sintéticos de la clase minoritaria a partir de sus vecinos más cercanos. De este modo, se obtiene un conjunto de entrenamiento más equilibrado, mejorando la capacidad del modelo para aprender patrones representativos y detectar clientes potenciales de manera más efectiva.

In [None]:

!pip install imbalanced-learn

In [None]:
# Análisis de distribución de clases antes del balanceo
print("Before OverSampling, counts of label '1': {}".format(sum(y_train == 1))) # Clase minoritaria
print("Before OverSampling, counts of label '0': {} \n".format(sum(y_train == 0)))  # Clase mayoritaria

# Aplico SMOTE solo al conjunto de entrenamiento
smote = SMOTE(random_state=42) # random_state para reproducibilidad
X_train, y_train = smote.fit_resample(X_train, y_train) # Solo aplicamos al conjunto de entrenamiento

# Verificación de resultados post-aplicación
print('After OverSampling, the shape of train_X: {}'.format(X_train.shape))
print('After OverSampling, the shape of train_y: {} \n'.format(y_train.shape))

# Confirmación de balanceo perfecto (50-50)
print("After OverSampling, counts of label '1': {}".format(sum(y_train == 1)))
print("After OverSampling, counts of label '0': {}".format(sum(y_train == 0)))

**Conclusión del balanceo con SMOTE**

Antes del balanceo, el conjunto de entrenamiento presentaba un fuerte desbalance: solo el 11% de las instancias correspondían a la clase positiva (`y = 1`). Esta desproporción podía sesgar al modelo a favor de la clase mayoritaria, reduciendo su capacidad de detectar correctamente clientes que aceptan la oferta bancaria.

Tras aplicar **SMOTE**, se obtuvo un conjunto de entrenamiento perfectamente balanceado, con igual cantidad de instancias para ambas clases (29.229 cada una). Esto permite entrenar modelos más justos y sensibles a la clase minoritaria, mejorando la capacidad predictiva en escenarios desbalanceados como el de este TFM.

<a id="section-five-subsection-two"></a>
### 5.2 - Elección de métricas: accuracy, precision, recall, F1, AUC

El objetivo del modelo es ayudar a identificar qué clientes tienen mayor probabilidad de contratar un depósito a plazo. En este tipo de problemas, donde la mayoría de los clientes no contrata el producto, medir solo el porcentaje de aciertos (*accuracy*) puede dar una visión incompleta.

Por eso se utilizan métricas adicionales que permiten evaluar mejor el impacto real del modelo:
- **Precision**: ayuda a entender cuántas de las predicciones positivas fueron realmente acertadas (importante para no malgastar recursos en clientes poco interesados).
- **Recall**: indica cuántos clientes realmente interesados fueron correctamente identificados (clave para no perder oportunidades comerciales).
- **F1-Score**: equilibra ambos aspectos.
- **AUC**: permite comparar modelos considerando su capacidad general de diferenciación entre quienes contratarían o no.

Estas métricas ofrecen una visión más útil para la toma de decisiones comerciales y el diseño de campañas efectivas.

In [None]:
# Función que imprime métricas de evaluación de un modelo de clasificación
# Acepta:
#   y_true  -> etiquetas reales
#   y_pred  -> predicciones del modelo (clase 0 o 1)
#   y_proba -> probabilidades predichas (necesarias para AUC y curva ROC)
def saca_metricas(y_true, y_pred, y_proba=None):
    print('🔹 Matriz de Confusión:')
    print(confusion_matrix(y_true, y_pred))
    
    print('\n🔹 Classification Report:')
    print(classification_report(y_true, y_pred, target_names=['No', 'Yes']))
    
    print('🔹 Accuracy:', round(accuracy_score(y_true, y_pred), 4))
    print('🔹 Precision:', round(precision_score(y_true, y_pred, pos_label=1), 4))
    print('🔹 Recall:', round(recall_score(y_true, y_pred, pos_label=1), 4))
    print('🔹 F1 Score:', round(f1_score(y_true, y_pred, pos_label=1), 4))
    
    # Curva ROC
    if y_proba is not None:
        fpr, tpr, _ = roc_curve(y_true, y_proba, pos_label=1)
        roc_auc = auc(fpr, tpr)
        print('🔹 AUC:', round(roc_auc, 4))
        
        fig = go.Figure()
        fig.add_trace(go.Scatter(x=fpr, y=tpr, mode='lines', name='Curva ROC', line=dict(color='blue')))
        fig.add_trace(go.Scatter(x=[0, 1], y=[0, 1], mode='lines', name='Línea base', line=dict(color='red', dash='dash')))
        fig.update_layout(
            title=f'Curva ROC (AUC = {roc_auc:.2f})',
            xaxis_title='Tasa de Falsos Positivos',
            yaxis_title='Tasa de Verdaderos Positivos (Recall)',
            template='plotly_white'
        )
        fig.show()
    else:
        print('No se calculó la curva ROC porque no se pasó `y_proba` (probabilidades).')


<a id="section-five-subsection-three"></a>
### 5.3 - Definición del baseline

Para evaluar el desempeño del modelo y garantizar su capacidad de generalización, se aplica validación cruzada *k-fold* durante el entrenamiento.

Además, se define un **modelo baseline** utilizando un clasificador dummy con la estrategia `most_frequent`, que siempre predice la clase mayoritaria. Esto sirve como referencia mínima para comparar y validar que los modelos entrenados aportan un valor real.

In [None]:
# Definición del modelo baseline que siempre predice la clase mayoritaria
dummy = DummyClassifier(strategy='most_frequent')
# Entrenamiento del baseline con los datos de entrenamiento
dummy.fit(X_train, y_train)
# Predicción de etiquetas para el conjunto de prueba
y_pred_dummy = dummy.predict(X_test)
# Predicción de probabilidades para la clase positiva (usada para métricas como AUC)
y_proba_dummy = dummy.predict_proba(X_test)[:, 1]
# Cálculo y visualización de métricas de evaluación
saca_metricas(y_test, y_pred_dummy, y_proba_dummy)

### Resultados del modelo baseline

Después de entrenar el clasificador dummy con la estrategia `most_frequent`, que siempre predice la clase mayoritaria ("No"), obtenemos los siguientes resultados:

- La matriz de confusión muestra que el modelo clasifica correctamente todos los casos negativos (7308), pero no detecta ningún caso positivo (928), lo que refleja un sesgo hacia la clase mayoritaria.
- El reporte de clasificación indica una precisión, recall y F1-score nulos para la clase minoritaria ("Yes"), confirmando que el modelo no es capaz de identificar clientes que sí suscriben al depósito.
- La exactitud general (accuracy) es alta (aprox. 88.7%) debido al desbalance del dataset, pero métricas como el AUC (0.5) y el F1 Score evidencian la ineficacia del baseline para predecir correctamente la clase positiva.

Estos resultados resaltan la importancia de desarrollar modelos más sofisticados que superen este baseline y sean capaces de identificar patrones significativos para predecir la suscripción con mayor precisión.

<a id="section-five-subsection-four"></a>
### 5.4 - Modelo de Regresión logística

En esta sección se entrena y evalúa un **modelo de regresión logística** como una primera aproximación real al problema de clasificación.

In [None]:
# Definición del modelo con random_state para asegurar reproducibilidad
modelo_lr = LogisticRegression(max_iter=1000, random_state=42)

# Configuración de la validación cruzada estratificada con 5 particiones
# Se mantiene la proporción de clases en cada fold y se añade aleatoriedad con shuffle
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Evaluación del modelo con validación cruzada utilizando la métrica F1 (adecuada para clases desbalanceadas)
scores = cross_val_score(modelo_lr, X_train, y_train, cv=cv, scoring='f1')

print("F1 promedio con validación cruzada:", scores.mean())

# Entreno en todo el train para evaluar en test (final)
modelo_lr.fit(X_train, y_train)
y_pred_lr = modelo_lr.predict(X_test)
y_proba = modelo_lr.predict_proba(X_test)[:, 1]

# Evaluación del modelo sobre el conjunto de test y grafico las métricas correspondientes a este modelo
saca_metricas(y_test, y_pred_lr, y_proba)

### Evaluación del Modelo de Regresión Logística

A continuación se presentan las observaciones obtenidas a partir del desempeño del modelo de regresión logística.

---

#### Observaciones clave

1. **Excelente capacidad de discriminación global**
   - El valor de **AUC = 0.93** indica que el modelo tiene una muy buena capacidad para distinguir entre clientes que aceptan y los que no aceptan la oferta.
   - La curva ROC se sitúa claramente por encima de la línea base, lo que valida su buen comportamiento como clasificador binario.

2. **F1 Score elevado en validación cruzada**
   - Se obtuvo un **F1 promedio de 0.88** con validación cruzada estratificada, lo que sugiere un rendimiento consistente del modelo durante el entrenamiento.

3. **Desempeño por clase: fuerte en recall, débil en precisión para la clase positiva**
   - Para la clase **"Yes" (positiva)**:
     - **Precision**: 0.45 → de todas las predicciones positivas, solo el 45% fueron correctas.
     - **Recall**: 0.85 → el modelo logra capturar correctamente el 85% de los casos verdaderamente positivos.
     - **F1 Score**: 0.59 → balancea ambos extremos, pero se ve penalizado por la baja precisión.

4. **Alta cantidad de verdaderos positivos, pero también muchos falsos positivos**
   - La **matriz de confusión** indica:
     - Verdaderos positivos: 793
     - Falsos positivos: 970
   - Esto indica una alta sensibilidad, pero con muchos clientes clasificados erróneamente como potenciales positivos.

---

#### Conclusiones

- El modelo muestra un **muy buen rendimiento general**, especialmente en la capacidad de identificar clientes que aceptan la oferta (`recall` alto).
- Sin embargo, genera una cantidad considerable de **falsos positivos**, lo que reduce la **precisión** y puede traducirse en campañas ineficientes o molestas para los clientes.

El análisis sugiere que la regresión logística es un modelo competitivo y útil como punto de partida, aunque probablemente mejorable con enfoques no lineales.

<a id="section-five-subsection-five"></a>
### 5.5 - Modelo de Árboles de decisión

Luego y en esta sección se entrena y evalúa un modelo de **Árbol de decisión**.

In [None]:
# Definición del modelo con random_state para asegurar reproducibilidad
modelo_dt = DecisionTreeClassifier(random_state=42)

# Configuración de la validación cruzada estratificada con 5 particiones
# Se mantiene la proporción de clases en cada fold y se añade aleatoriedad con shuffle
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Evaluación del modelo con validación cruzada utilizando la métrica F1 (adecuada para clases desbalanceadas)
scores_dt = cross_val_score(modelo_dt, X_train, y_train, cv=cv, scoring='f1')

print("F1 promedio con validación cruzada (Árbol de Decisión):", round(scores_dt.mean(), 4))

# Entrenamiento en todo el conjunto de entrenamiento
modelo_dt.fit(X_train, y_train)

# Predicción sobre conjunto de prueba
y_pred_dt = modelo_dt.predict(X_test)
y_proba_dt = modelo_dt.predict_proba(X_test)[:, 1]

# Evaluación del modelo sobre el conjunto de test y grafico las métricas correspondientes a este modelo
saca_metricas(y_test, y_pred_dt, y_proba_dt)

### Evaluación del Modelo de Árbol de Decisión

A continuación se presentan las observaciones obtenidas a partir del desempeño del modelo de árbol de decisión.

---

#### Observaciones clave

1. **Rendimiento aceptable en discriminación global**
   - El valor de **AUC = 0.75** indica que el modelo tiene una capacidad **moderada** para distinguir entre clientes que aceptan y no aceptan la oferta.
   - La curva ROC se sitúa por encima de la línea base, aunque no tan alejada como en otros modelos más robustos (como la regresión logística o modelos de ensamblado).

2. **F1 promedio alto en validación cruzada**
   - Se obtuvo un **F1 promedio de 0.9283**, lo que sugiere un **buen ajuste durante el entrenamiento** en los distintos folds.
   - Sin embargo, al evaluar en el conjunto de prueba, el desempeño baja, lo que puede estar indicando **sobreajuste** (overfitting), fenómeno común en árboles sin poda o sin regularización.

3. **Desempeño por clase: balance discreto, con mejores resultados en la clase mayoritaria**
   - Para la clase **"Yes" (positiva)**:
     - **Precision**: 0.51 → algo mejor que la regresión logística.
     - **Recall**: 0.58 → captura solo el 58% de los positivos reales.
     - **F1 Score**: 0.54 → indica un rendimiento moderado, penalizado por el bajo recall.
   - Para la clase **"No" (negativa)**:
     - Alto desempeño con un F1 de 0.94, reflejo del desbalance de clases y de la facilidad para identificar los negativos.

4. **Mejor precisión que la regresión logística, pero menor capacidad de cobertura de positivos**
   - El árbol de decisión logra **menos falsos positivos** (mejor precisión), pero a costa de **no identificar correctamente tantos casos positivos reales**.
   - Esto puede observarse en la **matriz de confusión**:
     - Verdaderos positivos: 539
     - Falsos positivos: 520

---

#### Conclusiones

- El modelo de árbol de decisión ofrece un **buen rendimiento general**, con una **precisión ligeramente superior** en la clase positiva respecto al modelo de regresión logística.
- No obstante, su menor **recall (0.58)** implica que **deja pasar una parte considerable de clientes que sí aceptarían la oferta**, lo que podría representar oportunidades de negocio perdidas.
- El valor de **AUC = 0.75** lo posiciona por debajo de otros modelos más sofisticados, lo que indica un margen importante de mejora.
- Además, el posible **sobreajuste** observado entre entrenamiento y test sugiere que sería recomendable aplicar técnicas de **poda, ajuste de hiperparámetros o incluso optar por modelos de ensamblado** como Random Forest o XGBoost para mejorar su capacidad generalizadora.

En resumen, el árbol de decisión resulta útil como modelo interpretable y de bajo costo computacional, pero presenta limitaciones que podrían abordarse con enfoques más complejos o regularizados.

<a id="section-five-subsection-six"></a>
### 5.6 - Modelo de Random Forest

Continúo ahora por ajustar y entrenar un ***modelo de Random Forest***

In [None]:
# Definición del modelo con random_state para asegurar reproducibilidad
modelo_rf = RandomForestClassifier(random_state=42)

# Configuración de la validación cruzada estratificada con 5 particiones
# Se mantiene la proporción de clases en cada fold y se añade aleatoriedad con shuffle
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Evaluación del modelo con validación cruzada utilizando la métrica F1 (adecuada para clases desbalanceadas)
scores_rf = cross_val_score(modelo_rf, X_train, y_train, cv=cv, scoring='f1')

print("F1 promedio con validación cruzada (Random Forest):", round(scores_rf.mean(), 4))

# Entreno el modelo en todo el conjunto de entrenamiento
modelo_rf.fit(X_train, y_train)

# Predicción sobre el conjunto de test
y_pred_rf = modelo_rf.predict(X_test)
y_proba_rf = modelo_rf.predict_proba(X_test)[:, 1]

# Evaluación del modelo sobre el conjunto de test y grafico las métricas correspondientes a este modelo
saca_metricas(y_test, y_pred_rf, y_proba_rf)


## Evaluación del Modelo Random Forest

A continuación se presentan las observaciones obtenidas a partir del desempeño del modelo Random Forest aplicado al conjunto de test, complementado con validación cruzada.

### Observaciones clave

#### Excelente capacidad de discriminación global
- **AUC = 0.94**, lo cual indica una capacidad sobresaliente para distinguir entre clientes que aceptan y los que no aceptan la oferta.
- La **curva ROC** se sitúa muy por encima de la línea base, reforzando su eficacia como clasificador binario.

#### F1 Score alto en validación cruzada
- Se obtuvo un **F1 promedio de 0.9566** con validación cruzada estratificada, lo que sugiere un rendimiento muy sólido y consistente del modelo en los diferentes folds del entrenamiento.

#### Desempeño por clase: fuerte en clase negativa, limitado en clase positiva
- Para la clase **"Yes" (positiva)**:
  - **Precision: 0.61** → De todas las predicciones positivas, solo el 61% fueron correctas.
  - **Recall: 0.56** → El modelo logra capturar el 56% de los verdaderos positivos.
  - **F1 Score: 0.58** → Moderado, penalizado por el balance entre precisión y recall.

- Para la clase **"No" (negativa)**:
  - El desempeño es notable, con una precisión y recall de aproximadamente **0.94–0.95**.

#### Menor proporción de falsos positivos respecto a Regresión Logística
- Según la matriz de confusión:
  - **Verdaderos positivos: 519**
  - **Falsos positivos: 331**
- Esto representa una mejora considerable en la precisión del modelo respecto al baseline logístico, con menor cantidad de clientes mal clasificados como positivos.

### Conclusiones

- El modelo **Random Forest mejora claramente la precisión y el AUC** respecto a la regresión logística, lo cual es esperable dada su naturaleza no lineal y capacidad para modelar relaciones complejas.
- Sin embargo, **el recall de la clase positiva se reduce**, lo que implica que el modelo podría estar dejando pasar algunos clientes que aceptarían la oferta.
- Puede ser un buen modelo si se desea **minimizar falsos positivos** y tener un clasificador más conservador.
- Como estrategia complementaria, podría explorarse un ajuste del **umbral de decisión**, o un **modelo de ensamblado** que combine Random Forest con otro algoritmo con mayor sensibilidad.

<a id="section-five-subsection-seven"></a>
### 5.7 - Modelo de XGBoost

En esta parte probaré el uso de un ***modelo XGBoost***.

In [None]:
# Definición del modelo con random_state para asegurar reproducibilidad
modelo_xgb = XGBClassifier(use_label_encoder=False, eval_metric='logloss', random_state=42)

# Configuración de la validación cruzada estratificada con 5 particiones
# Se mantiene la proporción de clases en cada fold y se añade aleatoriedad con shuffle
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Evaluación del modelo con validación cruzada utilizando la métrica F1 (adecuada para clases desbalanceadas)
scores_xgb = cross_val_score(modelo_xgb, X_train, y_train, cv=cv, scoring='f1')

print("F1 promedio con validación cruzada (XGBoost):", round(scores_xgb.mean(), 4))

# Entreno el modelo con todos los datos de entrenamiento
modelo_xgb.fit(X_train, y_train)

# Predicciones sobre conjunto de test
y_pred_xgb = modelo_xgb.predict(X_test)
y_proba_xgb = modelo_xgb.predict_proba(X_test)[:, 1]

# Evaluación del modelo sobre el conjunto de test y grafico las métricas correspondientes a este modelo
saca_metricas(y_test, y_pred_xgb, y_proba_xgb)

## Evaluación del Modelo XGBoost

A continuación se detallan las observaciones clave obtenidas a partir del desempeño del modelo XGBoost aplicado al conjunto de test.

### Observaciones clave

#### Excelente capacidad de discriminación global
- El valor **AUC = 0.95** indica que el modelo posee una **capacidad sobresaliente para distinguir** entre clientes que aceptan y los que no aceptan la oferta.
- La curva ROC se mantiene muy por encima de la línea base, lo que **valida la eficacia del modelo como clasificador binario**.

#### F1 Score elevado en validación cruzada
- Se obtuvo un **F1 promedio de 0.951** con validación cruzada estratificada, lo que sugiere un **rendimiento consistente y robusto** del modelo durante el entrenamiento.

#### Desempeño mixto por clase: fuerte en la clase negativa, débil en la clase positiva
- Para la clase **"Yes"** (positiva):
  - **Precision: 0.63** → de todas las predicciones positivas, solo el 63% fueron correctas.
  - **Recall: 0.59** → el modelo identifica correctamente el 59% de los clientes que efectivamente aceptaron la oferta.
  - **F1 Score: 0.61** → se logra un equilibrio razonable entre precisión y recall, aunque aún lejos de ser óptimo.

- Para la clase **"No"**:
  - Alto rendimiento, con una F1-score de **0.95**, reflejando la facilidad del modelo para detectar correctamente a quienes no aceptan la oferta.

#### Reducción en falsos positivos respecto a la regresión logística
- Matriz de confusión:
  - **Verdaderos positivos (VP): 546**
  - **Falsos positivos (FP): 325**
- En comparación con la regresión logística (970 FP), XGBoost **reduce considerablemente los falsos positivos**, lo que implica **menos interferencias comerciales innecesarias**.

#### Buen rendimiento global en métricas generales
- **Accuracy: 0.9142** → más del 91% de las predicciones fueron correctas.
- **Precision global: 0.6269**
- **Recall global: 0.5884**
- **F1 global: 0.607**

---

### Conclusiones

- El modelo **XGBoost supera a la regresión logística** en métricas clave como **AUC, F1 en validación cruzada** y especialmente en la **reducción de falsos positivos**.
- Aunque aún queda margen de mejora en la **precisión y recall para la clase positiva**, se observa un **mayor equilibrio y eficiencia general**.
- Su buen rendimiento general, junto con su bajo nivel de sobreajuste, lo convierten en una **excelente alternativa para la predicción de aceptación de campañas**.

<a id="section-five-subsection-eight"></a>
### 5.8 - Modelo de K-Nearest Neighbors

En esta sub-sección testeo una solución basada en ***K-Nearest Neighbors***.

In [None]:
# Definir modelo
modelo_knn = KNeighborsClassifier()

# Configuración de la validación cruzada estratificada con 5 particiones
# Se mantiene la proporción de clases en cada fold y se añade aleatoriedad con shuffle
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Evaluación del modelo con validación cruzada utilizando la métrica F1 (adecuada para clases desbalanceadas)
scores_knn = cross_val_score(modelo_knn, X_train, y_train, cv=cv, scoring='f1')

print("F1 promedio con validación cruzada (KNN):", round(scores_knn.mean(), 4))

# Entrenamiento final
modelo_knn.fit(X_train, y_train)

# Predicciones
y_pred_knn = modelo_knn.predict(X_test)
y_proba_knn = modelo_knn.predict_proba(X_test)[:, 1]

# Evaluación del modelo sobre el conjunto de test y grafico las métricas correspondientes a este modelo
saca_metricas(y_test, y_pred_knn, y_proba_knn)

## Evaluación del Modelo K-Nearest Neighbors (KNN)

A continuación se presentan las observaciones obtenidas a partir del desempeño del modelo de K-Nearest Neighbors.

### Observaciones clave

- **Capacidad de discriminación razonable**
  - El valor de **AUC = 0.74** sugiere que el modelo tiene una capacidad moderada para distinguir entre clientes que aceptan y los que no aceptan la oferta.
  - La **curva ROC** se sitúa por encima de la línea base, aunque no de forma sobresaliente, lo que indica un desempeño razonable como clasificador binario, pero lejos de óptimo.

- **F1 Score alto en validación cruzada**
  - Se obtuvo un **F1 promedio de 0.8872** usando validación cruzada estratificada, lo cual sugiere un rendimiento robusto durante el entrenamiento, especialmente considerando el desbalance de clases.

- **Desempeño por clase: buen recall, baja precisión para la clase positiva**
  - Para la clase **"Yes"** (cliente que acepta la oferta):
    - **Precision: 0.30** → Solo el 30% de las predicciones positivas fueron correctas.
    - **Recall: 0.55** → El modelo logra capturar correctamente el 55% de los casos verdaderamente positivos.
    - **F1 Score: 0.39** → Se ve penalizado por la baja precisión, aunque se beneficia del recall.

- **Matriz de confusión: muchos falsos positivos**
  - Verdaderos negativos: 6090  
  - Falsos positivos: 1218  
  - Falsos negativos: 413  
  - Verdaderos positivos: 515  
  - Esto muestra un número significativo de **falsos positivos**, lo cual podría generar costos o esfuerzos innecesarios en campañas dirigidas.

### Conclusiones

- El modelo KNN muestra un desempeño aceptable en cuanto a recall, logrando identificar más de la mitad de los clientes interesados.
- No obstante, su **precisión es baja**, lo que indica que muchas predicciones positivas resultan ser incorrectas.
- El valor de AUC cercano a 0.74 confirma que se trata de un modelo **mejor que el azar**, aunque **menos eficaz que otros modelos más sofisticados**.
- En contextos donde es importante reducir falsos positivos (por ejemplo, para minimizar costos de campañas o evitar molestar clientes), **KNN podría no ser la mejor opción sin algún tipo de ajuste adicional** (por ejemplo, optimización de hiperparámetros o técnicas de balanceo).

<a id="section-five-subsection-nine"></a>
### 5.9 - Modelo de Naive Bayes

Ahora, procedo a probar el desempeño con un ***modelo Naive Bayes***.

In [None]:
# Modelo Naive Bayes
modelo_nb = GaussianNB()

# Configuración de la validación cruzada estratificada con 5 particiones
# Se mantiene la proporción de clases en cada fold y se añade aleatoriedad con shuffle
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Evaluación del modelo con validación cruzada utilizando la métrica F1 (adecuada para clases desbalanceadas)
scores_nb = cross_val_score(modelo_nb, X_train, y_train, cv=cv, scoring='f1')

print("F1 promedio con validación cruzada (Naive Bayes):", round(scores_nb.mean(), 4))

# Entreno el modelo final
modelo_nb.fit(X_train, y_train)

# Predicción y evaluación
y_pred_nb = modelo_nb.predict(X_test)
y_proba_nb = modelo_nb.predict_proba(X_test)[:, 1]

# Evaluación del modelo sobre el conjunto de test y grafico las métricas correspondientes a este modelo
saca_metricas(y_test, y_pred_nb, y_proba_nb)

## Evaluación del Modelo Naive Bayes

A continuación se presentan las observaciones obtenidas a partir del desempeño del modelo Naive Bayes aplicado al conjunto de datos de marketing bancario.

### Observaciones clave

#### Buena capacidad general de discriminación
- El valor de AUC = **0.78** indica que el modelo posee una **buena capacidad para distinguir** entre clientes que aceptan y los que no aceptan la oferta.
- La **curva ROC** se encuentra bien por encima de la línea base aleatoria, mostrando un rendimiento clasificatorio aceptable, aunque inferior al de otros modelos más complejos como regresión logística.

#### F1 Score razonable con validación cruzada
- Se obtuvo un **F1 promedio de 0.72** utilizando validación cruzada estratificada, lo cual sugiere una **consistencia adecuada durante el entrenamiento** a pesar de tratarse de un modelo simple y lineal.

#### Desempeño por clase: excelente recall, baja precisión para la clase positiva
- Para la clase **"Yes"** (respuesta positiva del cliente):
  - **Precision: 0.26** → el modelo clasifica como positivos muchos casos incorrectos, es decir, **alta tasa de falsos positivos**.
  - **Recall: 0.71** → logra capturar correctamente una gran proporción de los clientes que realmente aceptaron la oferta.
  - **F1 Score: 0.38** → penalizado por la baja precisión, aunque mejora por el buen recall.

#### Matriz de confusión: fuerte sensibilidad, pero con costo de precisión
- Verdaderos positivos: **656**
- Falsos positivos: **1831**
- Esto refuerza que el modelo **prioriza la detección de positivos** (alta sensibilidad), aunque incurre en muchos errores al clasificar clientes no interesados como potenciales positivos.

### Conclusiones

- El modelo **Naive Bayes** presenta un rendimiento **decente y balanceado**, destacándose por su **simplicidad computacional** y su **alta capacidad de recuperación de positivos (recall)**.
- No obstante, la **muy baja precisión lo hace menos recomendable** en contextos donde los costos de contactar a un cliente no interesado sean altos.
- Este modelo puede ser útil como **baseline** o como parte de un **ensamble inicial**, pero es probable que su rendimiento se vea superado por enfoques más sofisticados o no lineales.

<a id="section-five-subsection-ten"></a>
### 5.10 - Modelo de Deep Learning

En esta sección evalúo el rendimiento de un modelo de **Deep Learning** como alternativa al enfoque clásico basado en modelos estadísticos y de aprendizaje automático / machine learning supervisado. Si bien las redes neuronales suelen requerir mayor cantidad de datos y capacidad computacional, creo que pueden resultar útiles para capturar relaciones no lineales complejas entre las variables del dataset.

Dado que el problema abordado consiste en una tarea de clasificación binaria, implemento una red neuronal multicapa (**Multilayer Perceptron**, MLP) con una arquitectura simple y entrenada sobre el mismo conjunto de datos procesado previamente. El objetivo es analizar si este enfoque logra mejorar el rendimiento predictivo observado en los modelos previos, como la regresión logística o los árboles de decisión, y si justifica su complejidad adicional en este contexto.

Se emplean técnicas de regularización y validación cruzada para evitar el sobreajuste, y se comparan métricas clave como el *F1-score*, la *AUC-ROC*, la *matriz de confusión* y los valores de *precision* y *recall*.


Primero comienzo por observar la cantidad de variables del dataset.

In [None]:
# Imprimo la forma/shape del dataset de entrenamiento (la cantidad de filas y especialmente la cantidad de columnas).
print(X_train.shape)

Confirmo que la cantidad de variables presentes en el dataset de entrenamiento es igual a 108. Esto es relevante dado que el modelo de deep learning que emplearé necesita especificar las dimensiones del input (es decir, la cantidad de variables a procesar).

In [None]:
# Se define un modelo secuencial (modelo de red neuronal de tipo "capa por capa")
model = Sequential()
# Uso regularización L2 para evitaro reducir el riesgo de sobreajuste / overfitting (penaliza los pesos grandes)
kernel_regularizer_l2 = regularizers.l2(5e-4)
# Ahora vendrá la primera capa oculta con 64 neuronas, activación tanh y regularización L2
# Se especifica el input_dim igual al número de features de entrada del dataset
model.add(Dense(64, input_dim=X_train.shape[1], activation='tanh',kernel_regularizer=kernel_regularizer_l2))
# Luego, aquí viene un dropout para reducir sobreajuste: apaga aleatoriamente el 30% de las neuronas
model.add(layers.Dropout(0.3))
# Segunda capa oculta, también con 64 neuronas y tanh. Se repite la regularización
model.add(Dense(64, input_dim=54, activation='tanh',kernel_regularizer=kernel_regularizer_l2))
model.add(layers.Dropout(0.3))
# Finalizo aquí con una capa de salida con 1 neurona y activación sigmoide para clasificación binaria
model.add(Dense(1, activation='sigmoid'))

A continuación procedo a compilar el modelo de red neuronal y especifico parámetros específicos.

In [None]:
model.compile(
    # Función de pérdida adecuada para clasificación binaria
    loss='binary_crossentropy',
    # Optimizador Adam: combina momentum y adaptatividad en el learning rate
    optimizer='adam',
    # Métricas a monitorizar durante el entrenamiento y la evaluación
    metrics=['accuracy', Precision(name='precision'), Recall(name='recall'), AUC(name='auc')]
)

In [None]:
# Definición de EarlyStopping como técnica preventiva contra el sobreajuste: 
# detiene el entrenamiento si la métrica monitoreada no mejora tras un número determinado de épocas
es_callback = keras.callbacks.EarlyStopping(
    monitor='val_loss', # Se monitorea la pérdida sobre el conjunto de validación
    patience=5, # El entrenamiento se detiene si no mejora después de 5 épocas consecutivas
    verbose=1) # Muestra un mensaje cuando se detiene el entrenamiento
# Convierto los datos de entrenamiento a arrays NumPy, requeridos por Keras
x_train_keras = np.array(X_train)
y_train_keras = np.array(y_train)
# Ajusto las dimensiones para el vector objetivo (y) a formato (n_samples, 1)
y_train_keras = y_train_keras.reshape(y_train_keras.shape[0], 1)

Ahora paso a entrenar el modelo de Depp Learning luego de su compilación y definición de ajustes.

In [None]:
# Hago el entrenamiento del modelo con los datos de entrenamiento
model.fit(X_train, # Conjunto de entrenamiento con las features
          y_train, # Variable objetivo binaria
          epochs=200, # Número máximo de épocas de entrenamiento
          batch_size=32, # Tamaño del batch: se actualizarán los pesos cada 32 muestras
          validation_split=0.2, # Proporción del conjunto de entrenamiento reservado para validación (20%)
          verbose=1, # Muestro el progreso del entrenamiento
          callbacks=[es_callback]) # Lista de callbacks utilizado (EarlyStopping para evitar sobreajuste)

In [None]:
# Conversión del conjunto de test a arrays de NumPy para compatibilidad con Keras
X_test_keras = np.array(X_test)

# Me aseguro que las etiquetas de test tengan la forma adecuada (matriz columna)
y_test_keras = np.array(y_test).reshape(-1, 1)

# Evaluación del modelo entrenado sobre el conjunto de test
# Devuelve una lista con los valores de las métricas definidas en model.compile()
scores = model.evaluate(X_test_keras, y_test_keras)

In [None]:
# Imprimo la métrica de accuracy obtenida en la evaluación del modelo sobre el conjunto de test
# 'model.metrics_names[1]' corresponde al nombre de la segunda métrica definida en model.compile(), que es 'accuracy'
print("\n%s: %.2f%%" % (model.metrics_names[1], scores[1]*100))

In [None]:
scores = model.evaluate(X_test_keras, y_test_keras, verbose=0)
print(f'🔹 Loss: {scores[0]:.4f}')
print(f'🔹 Accuracy: {scores[1]:.4f}')
print(f'🔹 Precision: {scores[2]:.4f}')
print(f'🔹 Recall: {scores[3]:.4f}')
print(f'🔹 AUC: {scores[4]:.4f}')

In [None]:
# Realizo las predicciones del modelo sobre el conjunto de test
y_pred_dl = model.predict(X_test_keras)
# Binarizo las probabilidades obtenidas: si la probabilidad es mayor o igual a 0.5 se clasifica como 1, si no como 0
y_pred_dl = (y_pred_dl >= 0.5).astype(int)

# Calculo el F1 Score comparando las etiquetas reales con las predichas
# El F1 Score es útil para evaluar el balance entre precisión y recall, especialmente en datasets desbalanceados
f1 = f1_score(y_test_keras, y_pred_dl)
# Muestra el valor del F1 Score con 4 decimales
print(f'🔹 F1 Score: {f1:.4f}')

## Evaluación del Modelo de Deep Learning

A continuación se presentan las observaciones clave sobre el desempeño del modelo de Deep Learning (Red Neuronal) aplicado al conjunto de prueba.

### Observaciones clave

#### Alta capacidad de discriminación global
- El valor **AUC = 0.9315** revela una **excelente capacidad del modelo para distinguir entre clientes que aceptan y no aceptan la oferta**.
- La alta AUC, combinada con un buen recall, indica que la red logra **capturar correctamente patrones relevantes**, incluso en presencia de desequilibrio de clases.

#### Buen rendimiento en la clase positiva (acepta la oferta)
- Para la clase **"Yes"** (positiva):
  - **Precision: 0.5068** → de cada 100 predicciones positivas, solo ~51 fueron correctas.
  - **Recall: 0.7597** → el modelo detecta correctamente un 76% de los clientes que realmente aceptaron la campaña.
  - **F1 Score: 0.6080** → representa un **equilibrio razonable entre precisión y recall**, aunque la precisión aún es baja para uso operativo directo.

#### Reducción del error global, pero con falsos positivos a considerar
- El valor de **Loss: 0.2869** sugiere una **buena minimización del error** en términos de función de pérdida binaria.
- Sin embargo, la **precisión moderada** indica una tendencia a generar falsos positivos, lo cual podría traducirse en **contactos comerciales innecesarios** si no se ajusta el umbral de decisión o no se combina con reglas adicionales.

#### Buen rendimiento global en métricas generales
- **Accuracy: 0.8896** → cerca del 89% de las predicciones fueron correctas.
- **Precision global: 0.5068**
- **Recall global: 0.7597**
- **F1 global: 0.6080**

---

### Conclusiones

- El modelo de Deep Learning muestra **un rendimiento competitivo en términos de recall y AUC**, siendo capaz de **detectar correctamente una alta proporción de clientes interesados**.
- Aunque la **precisión es menor que en otros modelos como XGBoost**, el **modelo es útil para escenarios donde el recall sea prioritario**, por ejemplo, en **etapas tempranas de una campaña** donde se busca maximizar el alcance.
- Podría beneficiarse de **ajustes en el umbral de clasificación**, **técnicas de balanceo** adicionales o incluso de una **estrategia de ensamblado** con modelos más precisos para mejorar la eficiencia final.

<a id="section-five-subsection-eleven"></a>
### 5.11 - Comparación de modelos

Se realizaron comparaciones previas entre modelos, pero en esta sección profundizo la comparación para obtener una conclusión definitiva entre los renidmientos de cada modelo frente a la tarea de clasificación que necesitamos para este proyecto.

In [None]:
# Diccionario de clasificadores con parámetros para tratar el desbalance de clases donde sea posible
clf_dict = {
    'Logistic Regression': LogisticRegression(class_weight='balanced', max_iter=3000, random_state=8),
    'Decision Tree': DecisionTreeClassifier(class_weight='balanced', random_state=8),
    'Random Forest': RandomForestClassifier(criterion='entropy', class_weight='balanced', random_state=8),
    'XGBoost': XGBClassifier(scale_pos_weight=7.85, use_label_encoder=False, eval_metric='logloss', seed=8),
    'K-Nearest Neighbors': KNeighborsClassifier(n_neighbors=5),  # KNN no soporta class_weight
    'Naive Bayes': GaussianNB(priors=[0.113, 0.887])  # Ajuste manual de probabilidades según proporción real
}

In [None]:
for nombre_modelo, modelo in clf_dict.items():
    print(f"\n{'='*40}\n🔎 Modelo: {nombre_modelo}\n{'='*40}")
    
    # Entrenamiento
    modelo.fit(X_train, y_train)
    
    # Predicción de clases
    y_pred = modelo.predict(X_test)
    
    # Predicción de probabilidades
    if hasattr(modelo, "predict_proba"):
        y_proba = modelo.predict_proba(X_test)[:, 1]
    else:
        y_proba = None  
    
    # Evaluación
    saca_metricas(y_test, y_pred, y_proba)


<a id="section-five-subsection-twelve"></a>
### 5.12 - Tuneo de hiperparámetros para el modelo seleccionado

Una vez identificado XGBoost como el modelo con mejor desempeño general en la etapa comparativa, se procedió a optimizar sus hiperparámetros con el objetivo de mejorar su capacidad predictiva y adaptar el modelo de manera más precisa a las características del conjunto de datos.

La optimización de hiperparámetros se llevó a cabo mediante **GridSearchCV**, una técnica de búsqueda exhaustiva que permite evaluar todas las combinaciones posibles dentro de un espacio definido de hiperparámetros. Este enfoque permite encontrar la configuración óptima que maximice el rendimiento del modelo según una métrica de evaluación determinada (en este caso, `roc_auc`).

Los hiperparámetros evaluados incluyen:

- `n_estimators`: número de árboles a construir.
- `max_depth`: profundidad máxima de cada árbol.
- `learning_rate`: tasa de aprendizaje utilizada para la actualización de pesos.
- `subsample`: proporción de muestras utilizadas en cada iteración.
- `colsample_bytree`: proporción de columnas utilizadas por cada árbol.

El proceso se llevó a cabo utilizando validación cruzada de 5 pliegues, lo que garantiza una evaluación robusta del modelo y ayuda a mitigar problemas de sobreajuste. A continuación, se presentan los resultados obtenidos y la mejor combinación de hiperparámetros seleccionada.

In [None]:
# Se instancia el modelo base de XGBoost con una métrica de evaluación adecuada
# y una semilla fija para asegurar reproducibilidad.
xgb = XGBClassifier(use_label_encoder=False, eval_metric='logloss', random_state=42)

# Se define la grilla de hiperparámetros a evaluar con GridSearchCV.
param_grid = {
    'n_estimators': [100, 200], # Número total de árboles a entrenar                  
    'max_depth': [3, 5], # Profundidad máxima de cada árbol, controla la complejidad del modelo.                         
    'learning_rate': [0.05, 0.1], # Tasa de aprendizaje que reduce la contribución de cada árbol.               
    'subsample': [0.85, 1.0], # Proporción de muestras utilizadas en cada iteración (para evitar sobreajuste).                   
    'colsample_bytree': [0.85, 1.0], # Proporción de columnas (features) muestreadas por árbol.            
    'scale_pos_weight': [1, 5, 7.85] # Peso relativo de la clase positiva, útil para desbalance de clases.            
}

In [None]:
# Se configura GridSearchCV para realizar búsqueda exhaustiva de combinaciones de hiperparámetros.
grid_search = GridSearchCV(
    estimator=xgb, # Modelo base (XGBoost) a tunear.
    param_grid=param_grid, # Grilla de hiperparámetros definida previamente.
    scoring='f1', # Métrica objetivo para seleccionar el mejor modelo (F1 Score).
    cv=3, # Número de particiones para validación cruzada (3-fold CV).                      
    n_jobs=-1, # Usa todos los núcleos disponibles para acelerar la búsqueda.
    verbose=2 # Nivel de detalle en la salida durante el entrenamiento.
)

# Se ajusta el modelo a los datos de entrenamiento utilizando validación cruzada.
grid_search.fit(X_train, y_train)

In [None]:
#Imprimo los mejores hiperparámetros encontrados para el modelo XGBoost.
print("Mejores hiperparámetros:")
print(grid_search.best_params_)

### Análisis de los Hiperparámetros Seleccionados

Los hiperparámetros seleccionados durante la búsqueda con `GridSearchCV` han contribuido de manera significativa al rendimiento del modelo:

- **`max_depth` moderado**: Un valor adecuado de profundidad controla el sobreajuste permitiendo al modelo capturar relaciones complejas sin memorizar ruido. Esto es clave dado que los datos poseen múltiples variables categóricas y relaciones no lineales.

- **`learning_rate` bajo**: Una tasa de aprendizaje más baja (por ejemplo, 0.05 o 0.1) hace que el modelo aprenda de forma más gradual y estable, lo cual tiende a mejorar el rendimiento general en validación cruzada.

- **`n_estimators` elevado**: Usar un número mayor de árboles junto a un `learning_rate` bajo permite que el modelo construya una solución más robusta y generalizable, incrementando el AUC y la capacidad de generalización.

- **`subsample` y `colsample_bytree` < 1**: Estas tasas de muestreo controlan el sobreajuste al limitar el número de observaciones y características usadas por cada árbol. Son especialmente útiles en datasets como este, donde hay riesgo de que el modelo se adapte demasiado a los patrones particulares del conjunto de entrenamiento.

- **`scale_pos_weight` ajustado**: En contextos de clases desbalanceadas, este parámetro permite al modelo penalizar más los errores de clasificación en la clase minoritaria (“Yes”), lo cual explica el fuerte aumento en el recall sin sacrificar demasiado la precisión.

En conjunto, estos valores permiten que `XGBoost` actúe como un **modelo regulado, eficiente y con buena capacidad de generalización**, maximizando su utilidad práctica en campañas reales.


Estos valores obtenidos fueron luego utilizados para reentrenar el modelo XGBoost final con el objetivo de maximizar su desempeño predictivo sobre datos no vistos.

In [None]:
# Se extrae el mejor modelo ajustado (con los mejores hiperparámetros) del objeto GridSearchCV
mejor_modelo_xgb = grid_search.best_estimator_
# Se generan las predicciones de clase sobre el conjunto de test
y_pred = mejor_modelo_xgb.predict(X_test)
# Se generan las probabilidades de predicción para la clase positiva (label = 1)
y_proba = mejor_modelo_xgb.predict_proba(X_test)[:, 1]
# Se evalúa el desempeño del modelo utilizando las métricas definidas en la función personalizada 'saca_metricas'
saca_metricas(y_test, y_pred, y_proba)

### Evaluación del Modelo XGBoost tras el Tuneo de Hiperparámetros

Los resultados del modelo optimizado mediante `GridSearchCV` muestran una mejora significativa en la capacidad del clasificador para identificar correctamente los casos positivos (clientes que aceptan la oferta de marketing):

🔹 **AUC = 0.95**: El área bajo la curva ROC indica un excelente desempeño general del modelo, muy por encima del azar (0.5). El modelo discrimina bien entre las clases.

🔹 **Recall = 0.81** para la clase `"Yes"`: Este valor refleja una gran capacidad para captar los casos positivos, lo cual es crucial en este contexto si se busca maximizar la tasa de respuesta de la campaña.

🔹 **Precision = 0.54**: Si bien el recall es alto, la precisión es más baja, lo que indica una cantidad significativa de falsos positivos. Esto es aceptable en campañas donde el costo de contactar a un cliente que no convertirá es bajo comparado con el beneficio de captar uno que sí lo hará.

🔹 **F1 Score = 0.65**: El balance entre precisión y recall es razonable, confirmando que el modelo logra un buen compromiso entre ambas métricas.

🔹 **Accuracy = 0.90**: Aunque elevado, debe interpretarse con precaución dada la desbalanceada distribución de clases (mayoría de “No”).

🔹 **Matriz de Confusión:**

Verdaderos negativos: 6664
Falsos positivos:     644
Verdaderos positivos: 749
Falsos negativos:     179


Esto indica que el modelo logra identificar correctamente el 81% de los clientes que aceptan la oferta, aunque todavía existen errores de clasificación (clientes que no aceptarán pero son identificados como positivos).

En conjunto, estas métricas y el gráfico ROC sugieren que el modelo XGBoost optimizado representa una **solución robusta para predecir la aceptación de campañas**, especialmente si se prioriza la captación de clientes potenciales por encima del costo de algunos falsos positivos.

Ahora, muestro las 10 mejores combinaciones de hiperparámetros junto con su score promedio y desviación estándar.

In [None]:
# Convertimos los resultados del GridSearchCV a un DataFrame para facilitar el análisis
resultados = pd.DataFrame(grid_search.cv_results_)
# Ordenamos las filas del DataFrame según el F1 Score promedio obtenido en validación cruzada (de mayor a menor)
resultados = resultados.sort_values(by="mean_test_score", ascending=False)
# Mostramos las 10 mejores combinaciones de hiperparámetros junto con su score promedio y desviación estándar
resultados[["params", "mean_test_score", "std_test_score"]].head(10)

Una vez obtenidos los mejores hiperparámetros entonces procedo a guardarlo como el **modelo final**.

In [None]:
# Asignamos el mejor modelo encontrado por GridSearchCV (ya entrenado) a una variable para usarlo como modelo final
model_final = grid_search.best_estimator_

In [None]:
# Imprimo el tipo de objeto del modelo final; en este caso, un clasificador XGBoost ya entrenado
print(type(model_final))  
# Muestro todos los hiperparámetros (tanto los definidos manualmente como los optimizados por GridSearchCV)
print(model_final.get_params())  
# Realizo predicciones sobre el conjunto de test con el modelo final optimizado
model_final.predict(X_test)  

In [None]:
# Guardar a disco el modelo final ajustado
joblib.dump(model_final, 'modelo_final_xgb.pkl')

Este modelo puede ahora ser evaluado, exportado o **integrado dentro de un pipeline de despliegue para su uso en aplicaciones reales**.

<a id="section-six"></a>
<h2><strong>6- INTERPRETABILIDAD Y EXPLICABILIDAD DE MODELOS</strong> </h2>

En esta sección se aborda la importancia de comprender el funcionamiento interno del modelo predictivo desarrollado, con el fin de generar confianza, validar su comportamiento y facilitar la toma de decisiones basadas en sus resultados. La **interpretabilidad y explicabilidad** son aspectos clave para garantizar que las predicciones no solo sean precisas, sino también comprensibles para usuarios técnicos y no técnicos.

Se explorarán técnicas y herramientas que permiten analizar la contribución de las variables de entrada, identificar patrones relevantes y explicar las decisiones del modelo, especialmente en contextos donde la transparencia es fundamental para la adopción de la solución (como es el sector bancario que nos compete aquí en este proyecto).

<a id="section-six-subsection-one"></a>
### **6.1 Feature importance**

El **análisis de importancia de variables** permite identificar cuáles características del conjunto de datos tienen mayor influencia en las predicciones del modelo. Esta información es fundamental para comprender el comportamiento del modelo, detectar posibles sesgos y validar si las variables más relevantes tienen sentido desde el punto de vista del dominio del problema.

In [None]:
# Crear un DataFrame con las importancias de las variables del modelo final
feat_importances = pd.DataFrame(model_final.feature_importances_, index=X_train.columns, columns=["Importance"])
# Ordenar las variables de mayor a menor importancia
feat_importances.sort_values(by='Importance', ascending=False, inplace=True)

# Seleccionar las 25 variables más importantes
top_features = feat_importances.head(25)

# Grafico las 25 variables más relevantes para el modelo final
top_features.plot(kind='bar', figsize=(10, 6))
plt.title("Top 25 Features más importantes")
plt.ylabel("Importancia")
plt.xticks(rotation=45, ha='right') # Roto las etiquetas del eje X para mejorar la legibilidaddel gráfico
plt.tight_layout() # Ajusto el layout para evitar recortes en el gráfico
plt.show()

#### Insights preliminares de las features

1. **La variable `duration` domina ampliamente la predicción del modelo**
   - Es, por mucho, la característica más influyente.
   - Esto es esperable, ya que la duración de la llamada está altamente correlacionada con la respuesta positiva del cliente: a mayor duración, mayor probabilidad de aceptación.

2. **Variables económicas externas como `euribor3m`, `cons.conf.idx` y `cons.price.idx` tienen alta importancia**
   - Estas variables macroeconómicas afectan significativamente la decisión del cliente, reflejando que el contexto económico influye en la predisposición a contratar productos financieros.
   - Es recomendable tener en cuenta el entorno macroeconómico al lanzar campañas.

3. **Variables como `default_no`, `emp.var.rate` y `day_of_week` también presentan relevancia destacada**
   - `default_no` sugiere que clientes con historial crediticio limpio tienen más probabilidad de aceptar.
   - `day_of_week` indica que el día del contacto podría tener un efecto relevante en la tasa de conversión.

4. **El tipo de contacto (`contact_cellular`) y la frecuencia de contactos previos (`campaign`, `pdays`, `previous`) son relevantes**
   - Reflejan el impacto del canal y la intensidad de la campaña sobre la respuesta del cliente.

5. **Variables categóricas derivadas como `job_grouped`, `education_grouped`, `life_stage` y `socio-economic` aparecen con menor importancia**
   - Aunque su impacto individual es bajo, aportan valor contextual y pueden ser relevantes en combinación con otras variables.

---

#### Conclusiones parciales de las features

- El modelo se apoya fuertemente en variables que describen la **interacción durante la campaña** (especialmente `duration`) y en **indicadores macroeconómicos**.
- El perfil sociodemográfico del cliente tiene un impacto moderado, lo cual sugiere que la disposición a contratar el producto depende más del contexto que del perfil estático del cliente.
- Estos hallazgos permiten identificar oportunidades de optimización para campañas futuras:
  - Elegir los días más efectivos para contactar (`day_of_week`).
  - Evitar campañas demasiado insistentes (controlar `campaign` y `pdays`).
  - Lanzar campañas en momentos macroeconómicamente favorables (`euribor3m`, `cons.conf.idx`).

Este análisis refuerza la importancia de combinar información contextual, del cliente y del entorno económico para mejorar la eficacia de las campañas de marketing predictivo.

<a id="section-six-subsection-two"></a>
### **6.2 SHAP y LIME para interpretación local/global**

### Explicabilidad Local con LIME

Con el objetivo de comprender el comportamiento del modelo a nivel individual, se utilizó la técnica **LIME** (*Local Interpretable Model-agnostic Explanations*). Esta herramienta permite generar explicaciones locales e interpretables para modelos complejos, proporcionando información sobre cómo cada característica influyó en la predicción de una instancia específica.

LIME actúa generando ligeras perturbaciones alrededor del punto de interés y entrenando un modelo interpretable (por lo general, lineal) sobre estos datos simulados. De este modo, aproxima el comportamiento del modelo original en un entorno local, permitiendo identificar las variables que más contribuyeron a la predicción, así como el sentido de dicha contribución (positivo o negativo).

En este caso, se analizó una observación particular del conjunto de prueba, y se generó una explicación visual que destaca las 30 características más influyentes en la decisión del modelo. Esta aproximación permite validar las decisiones del modelo y facilita su interpretación para usuarios finales o stakeholders no técnicos.

In [None]:
# Se crea una instancia de LimeTabularExplainer para generar explicaciones locales del modelo.
# Esta clase entrena un modelo interpretable (e.g., lineal) sobre datos perturbados de una instancia puntual.
explainer = lime.lime_tabular.LimeTabularExplainer(X_train.values, # Datos de entrenamiento en formato numpy array
                                                   mode='classification', # Tipo de tarea: clasificación
                                                   training_labels=y_train, # Etiquetas reales del conjunto de entrenamiento
                                                   feature_names=X_train.columns, # Nombres de las variables para que la explicación sea legible
                                                   random_state=42) # Fijación de semilla para reproducibilidad

In [None]:
# Selecciono un registro del dataset de pruba al azar junto con sus valores.
X_test.iloc[100]

In [None]:
# Se obtienen las probabilidades predichas por el modelo.
model_final.predict_proba(X_test)[:, 1]

In [None]:
# Se obtienen las predicciones finales del modelo para el conjunto de test. Cada valor corresponde a la clase predicha (0 o 1) para cada observación.
model_final.predict(X_test)

In [None]:
# Genero aquí una explicación local con LIME para una instancia específica del conjunto de test.
# En este caso, analizo la observación en la posición 100.
# LIME utiliza el método predict_proba del modelo para estimar la contribución de cada variable.
# El parámetro num_features=30 indica que se mostrarán las 30 variables más influyentes en la predicción en esta celda.
exp=explainer.explain_instance(X_test.iloc[100], model_final.predict_proba,num_features=30)

# Luego muestro la explicación generada de forma interactiva dentro del notebook.
# El gráfico resultante indica el impacto (positivo o negativo, con color naranja o azul respectivamente) por variable sobre la predicción del modelo.
exp.show_in_notebook()

En la celda anteriores limité la cantidad de variables a considerar por LIME, en cambio en la siguiente celda incluyo todas las variables para dar una explicabilidad más exhaustiva.

In [None]:
# Genero aquí nuevamente la explicación local con LIME para una instancia específica del conjunto de test (registro 100).
# Ahora habilito que aparezcan todas las variables y su explicabilidad.
exp.show_in_notebook(show_all=True)

# Se guarda la explicación generada en un archivo HTML interactivo para su consulta o presentación posterior.
exp.save_to_file('explanation.html')

### Explicabilidad Local con LIME

Se utilizó la herramienta **LIME (Local Interpretable Model-Agnostic Explanations)** para analizar el comportamiento del modelo XGBoost sobre un caso específico del conjunto de testeo. LIME permite comprender **por qué el modelo tomó una decisión concreta**, revelando qué características influyeron más en la predicción de esa instancia.

#### Resultado de la Predicción

- **Probabilidad predicha de aceptación (clase “Yes”)**: **0.72**
- **Probabilidad de no aceptación**: 0.28  
➡️ El modelo predice con alta confianza que el cliente aceptará la oferta.

#### Principales características que contribuyeron positivamente (hacia clase “Yes”):

- `age = 0.42`: la edad del cliente (escalada entre 0 y 1) se vincula positivamente con la predicción.
- `month = 0.33`: el mes en que se realizó el contacto parece tener influencia positiva.
- `day_of_week = 1.00`: día de la semana puede haber coincidido con una tendencia de mayor conversión.
- `education_university.degree = 1.00`: el cliente posee título universitario, lo que se relaciona positivamente con la aceptación.
- `marital_single = 1.00`: clientes solteros parecen más propensos a aceptar la campaña.
- `housing_yes = 1.00` y `loan_yes = 1.00`: aunque se tiene préstamo y vivienda, en este caso no actuaron como frenos para la predicción positiva.
- `contact_cellular = 1.00`: contacto por celular tiende a estar asociado a respuestas más afirmativas.
- `life_stage_middle aged & single = 1.00` y `job_grouped_White-collar = 1.00`: estos perfiles socio-demográficos están asociados a una mayor propensión a aceptar.

#### Características con impacto neutro o bajo:

- Variables como `pdays`, `previous`, `campaign`, `job_blue-collar`, `poutcome_failure`, y muchas combinaciones socioeconómicas no presentaron impacto relevante (valor = 0.00), lo que indica que no influyeron en esta predicción particular.

---

### Conclusiones de la explicación local

- La predicción **no solo se apoya en variables cuantitativas**, como `age`, `duration`, o `emp.var.rate`, sino también en **variables categóricas codificadas**, relacionadas con nivel educativo, tipo de empleo y estado civil.
- LIME revela que el modelo **asocia ciertos perfiles sociodemográficos con mayor probabilidad de aceptación**, en línea con el análisis general realizado con SHAP.
- Esta explicación local valida que el modelo no es una "caja negra", y que su decisión se basa en **factores interpretables y coherentes con el dominio del negocio**.

### Explicabilidad Global con SHAP

Para entender el comportamiento general del modelo y la importancia relativa de cada variable, se utilizó la técnica **SHAP** (*SHapley Additive exPlanations*). Esta metodología calcula, para cada predicción individual, la contribución de cada característica utilizando conceptos de la teoría de juegos, y luego permite agregar esas explicaciones para obtener una visión global.

En este trabajo, se calcularon los valores SHAP para una muestra representativa del conjunto de test (100 observaciones). El gráfico resumen (`summary_plot`) generado a partir de estos valores visualiza la influencia promedio y el efecto que cada variable tiene sobre las predicciones del modelo.

Esta aproximación ofrece una explicación global del modelo, resaltando qué variables son más determinantes y cómo sus diferentes valores afectan la salida del clasificador, facilitando la interpretación y validación del modelo completo.

In [None]:
# Se crea un objeto explainer SHAP para el modelo entrenado.
explainer = shap.Explainer(model_final)
# Se calculan los valores SHAP para las primeras 100 instancias del conjunto de test,obteniendo la contribución de cada variable para cada predicción.
shap_values = explainer.shap_values(X_test.iloc[0:100])
# Se genera un gráfico resumen que muestra la importancia global de las variables y cómo sus valores afectan las predicciones a través de la distribución de valores SHAP.
shap.summary_plot(shap_values, X_test.iloc[0:100])

## Interpretabilidad Global del Modelo – SHAP Summary Plot

En el gráfico SHAP summary se observa lo siguiente:

- **`duration`** es, con diferencia, la variable que más impacto tiene en la predicción del modelo. A mayor duración de la llamada (color rosa), mayor es la probabilidad de que el cliente acepte el producto. Esto se alinea con la lógica comercial: llamadas más largas suelen indicar mayor interés.
- Variables económicas como **`emp.var.rate`** (tasa de variación de empleo) y **`euribor3m`** (tipo de interés a 3 meses) también tienen fuerte influencia. Sus valores más bajos (color azul) están asociados a un aumento en la probabilidad de aceptación, lo que puede reflejar épocas de menor confianza económica donde las campañas bancarias son más efectivas.
- Variables de comportamiento como **`campaign`** (número de contactos durante la campaña), **`pdays`** y **`previous`** muestran que más contactos previos tienden a tener un efecto negativo si no fueron exitosos, reflejando potencial saturación del cliente.
- Variables categóricas transformadas, como **`contact_cellular`**, **`default_no`**, **`education_university.degree`**, entre otras, también muestran influencia aunque menor, evidenciando el impacto de factores demográficos y de canal de contacto.

Este gráfico proporciona una visión clara y transparente de cómo las diferentes variables interactúan con el modelo, reforzando la confianza en su funcionamiento y permitiendo una mejor toma de decisiones en un entorno bancario.

In [None]:
# Calcular los valores SHAP
explainer = shap.Explainer(model_final)
shap_values = explainer(X_test)

# Lo puedo guardar el gráfico  como un png para presentaciones posteriores.
plt.figure()
shap.summary_plot(shap_values, X_test, show=False)
plt.savefig("shap_summary_plot.png", bbox_inches='tight', dpi=300)
plt.close()

<a id="section-six-subsection-three"></a>
### **6.3 Discusión sobre sesgos y robustez del modelo**

### Discusión sobre Sesgos y Robustez del Modelo

El análisis predictivo realizado se basó en un dataset con características demográficas, laborales y de interacción previa con la entidad bancaria durante campañas de marketing. Si bien el modelo XGBoost optimizado alcanzó métricas destacadas (AUC = 0.95, F1 Score = 0.65, Recall = 0.81), es fundamental evaluar críticamente su **robustez ante variaciones de los datos** y la posible existencia de **sesgos inherentes**.

#### Posibles sesgos del modelo

- **Desbalance de clases**: La variable objetivo presenta un marcado desbalance, con una mayoría de clientes que no aceptaron la oferta. Esto puede inducir al modelo a favorecer la clase negativa ("No"), afectando la precisión sobre la clase minoritaria. Se aplicaron técnicas y métricas adecuadas como F1 y AUC para mitigar este efecto, aunque aún persisten falsos positivos y negativos.

- **Variables socioeconómicas sensibles**: Algunas variables utilizadas, como `education`, `job`, `marital status` o combinaciones socioeconómicas, pueden estar correlacionadas con factores sensibles o discriminatorios. Si bien se incluyeron por su valor predictivo, se recomienda monitorear su influencia para evitar posibles sesgos indirectos en la toma de decisiones.

- **Información histórica y sesgada por campañas previas**: Variables como `pdays` o `previous` reflejan interacciones anteriores con el cliente, lo que podría introducir un sesgo por selección si las campañas anteriores no fueron aleatorias.

#### Robustez del modelo

- **Validación cruzada estratificada**: Se implementó validación cruzada estratificada para asegurar estabilidad en los resultados, logrando un F1 promedio consistente durante el entrenamiento.

- **Rendimiento estable ante nuevos datos**: El desempeño sobre el conjunto de test refleja una generalización sólida del modelo, sin indicios de sobreajuste. Las métricas mantienen un nivel elevado y balanceado, especialmente el AUC, que demuestra una buena capacidad de discriminación global.

- **Explicabilidad con SHAP y LIME**: Se incorporaron herramientas de interpretabilidad (SHAP y LIME) que permiten identificar las variables más influyentes en las predicciones. Estas explicaciones refuerzan la confianza en el modelo al mostrar un razonamiento coherente con el dominio del problema.

---

### Conclusión

El modelo XGBoost muestra una buena robustez general y capacidad de generalización. Sin embargo, se identifican potenciales fuentes de sesgo que deben considerarse si se busca aplicar el modelo en producción. Es recomendable complementar el modelo con evaluaciones éticas y análisis de equidad, especialmente si se utiliza en contextos sensibles o se automatizan decisiones comerciales.

<a id="section-seven"></a>
<h2><strong>7- EVALUACIÓN FINAL Y SELECCIÓN DE MODELO FINAL</strong> </h2>

En esta sección se presenta la **evaluación definitiva de los modelos desarrollados** utilizando métricas adecuadas para el problema planteado. Se comparan los resultados obtenidos para determinar cuál fue el modelo que ofrece el mejor desempeño y equilibrio entre precisión, robustez y capacidad de generalización.

Además, se describen los criterios considerados para la **selección del modelo final**, teniendo en cuenta tanto aspectos cuantitativos como cualitativos, con el objetivo de elegir la solución más adecuada para su aplicación práctica.

<a id="section-seven-subsection-one"></a>
### **7.1 Comparación global de métricas**

A continuación, se presenta el gráfico comparativo final entre los modelos utilizados y sus valores obtenidos para las diversas métricas de evaluación empleadas:

In [None]:
# Datos de las métricas obtenidas para cada modelo.
data = {
    'Modelo': [
        'XGBoost', 'Random Forest', 'Logistic Regression',
        'Decision Tree', 'K-Nearest Neighbors', 'Naive Bayes', 'Deep Learning'
    ],
    'AUC': [0.945, 0.941, 0.933, 0.750, 0.736, 0.776, 0.9315],
    'F1 Score': [0.6241, 0.5794, 0.5894, 0.5370, 0.3871, 0.3499, 0.6080],
    'Precision': [0.4834, 0.6049, 0.4498, 0.5067, 0.2972, 0.2277, 0.5068],
    'Recall': [0.8804, 0.5560, 0.8545, 0.5711, 0.5550, 0.7554, 0.7597],
    'Accuracy': [0.8805, 0.9091, 0.8658, 0.8890, 0.8020, 0.6837, 0.8896]
}

# Creo el DataFrame y lo transformar a formato largo (long-form)
df = pd.DataFrame(data)
df_melted = df.melt(id_vars='Modelo', var_name='Métrica', value_name='Valor')

# Ajusto el estilo y visualización
plt.figure(figsize=(12, 6))
sns.set(style="whitegrid")

# Gráfico de barras
ax = sns.barplot(data=df_melted, x='Métrica', y='Valor', hue='Modelo', palette='Set2')

# Ajustes estéticos
plt.title('Comparación de Métricas por Modelo', fontsize=16)
plt.ylim(0, 1)
plt.ylabel('Valor', fontsize=12)
plt.xlabel('Métrica', fontsize=12)
plt.legend(title='Modelo', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.xticks(rotation=0)
plt.tight_layout()

# Muestro el gráfico
plt.show()

## Comparación de Modelos y Conclusión General

Se evaluaron seis modelos de clasificación sobre el conjunto de test, ajustando los parámetros para abordar el desbalance de clases donde fue posible. A continuación, se resumen las observaciones más relevantes y se comparan los modelos en función de métricas clave como **AUC**, **F1 Score**, **Precisión**, **Recall** y **Accuracy**.

### Comparación General de Desempeño

| Modelo               | AUC    | F1 Score | Precision | Recall | Accuracy |
|----------------------|--------|----------|-----------|--------|----------|
| **XGBoost**          | 0.945  | **0.6241** | 0.4834    | **0.8804** | 0.8805   |
| **Random Forest**    | 0.941  | 0.5794   | **0.6049**| 0.5560 | **0.9091** |
| **Logistic Regression** | 0.933 | 0.5894  | 0.4498    | 0.8545 | 0.8658   |
| **Decision Tree**    | 0.750  | 0.5370   | 0.5067    | 0.5711 | 0.8890   |
| **K-Nearest Neighbors** | 0.736 | 0.3871 | 0.2972    | 0.5550 | 0.8020   |
| **Naive Bayes**      | 0.776  | 0.3499   | 0.2277    | 0.7554 | 0.6837   |

### Observaciones Clave

#### **Mejor rendimiento global: XGBoost**
- Logra el **mejor equilibrio entre recall y precisión para la clase positiva**.
- **F1 Score más alto (0.6241)**, reflejando una combinación efectiva de precisión y cobertura.
- **Recall sobresaliente (0.88)**: identifica correctamente casi el 90% de los clientes que aceptan la campaña.
- Excelente **AUC (0.945)**, lo que confirma una fuerte capacidad de discriminación.

#### **Random Forest**: Precisión elevada, pero menor cobertura
- Aunque su **precision (0.60)** supera a XGBoost, su **recall (0.56)** es considerablemente menor, por lo que **pierde muchas oportunidades de identificar clientes interesados**.
- Su **F1 score (0.5794)** y **accuracy general (0.91)** lo convierten en una opción muy sólida si se prioriza **minimizar falsos positivos**.

#### **Modelos base (KNN, Naive Bayes)** con desempeño débil
- Ambos muestran **precisión muy baja** y **fuerte sesgo hacia la clase mayoritaria**, lo que los hace poco adecuados en este contexto.
- El Naive Bayes obtiene una F1 de apenas **0.3499**, y KNN **0.3871**, con una AUC muy inferior a los mejores modelos.

#### **Regresión Logística**: buen recall, pero precisión limitada
- Presenta un **recall competitivo (0.8545)**, cercano al de XGBoost, pero su **precisión (0.45)** es inferior.
- Puede ser útil como benchmark, pero **genera una mayor cantidad de falsos positivos** (970), lo cual implica costos adicionales para el área de negocio.

---

### Conclusión Final

- **XGBoost emerge como el modelo más equilibrado y eficaz**, especialmente si se busca **maximizar la identificación de clientes interesados sin comprometer demasiado la precisión**.
- **Random Forest** es también una opción robusta si el objetivo es **priorizar la precisión y reducir falsos positivos**, aunque a costa de perder parte de los clientes potenciales.
- **Modelos simples como Naive Bayes y KNN no son competitivos** para esta tarea, incluso con ajustes al desbalance de clases.

> En función del objetivo del negocio, la elección del modelo ideal dependerá de si se desea **maximizar cobertura (recall)** o **precisión operacional**. No obstante, XGBoost ofrece el mejor **compromiso general** entre ambas dimensiones, y es el candidato preferente para la implementación final.


<a id="section-seven-subsection-two"></a>
### **7.2 Selección del modelo con mejor balance interpretabilidad-rendimiento**

## Justificación de la selección del modelo

Luego de analizar comparativamente el rendimiento de todos los modelos evaluados, se selecciona **XGBoost con hiperparámetros optimizados mediante GridSearchCV** como el modelo final para la predicción de aceptación de campañas de marketing.

### Criterios de selección

La elección se fundamenta en un conjunto de métricas y aspectos clave:

- **F1 Score = 0.6454**: el más alto entre todos los modelos probados, lo que refleja el mejor equilibrio entre precisión y recall en el contexto de clases desbalanceadas.
- **Recall = 0.8071**: el modelo logra capturar más del 80% de los clientes que efectivamente aceptan la oferta, lo cual es fundamental si se busca maximizar la tasa de respuesta.
- **AUC = 0.9485**: confirma una capacidad de discriminación sobresaliente entre las clases positivas y negativas.
- **Precision = 0.5377**: aunque moderada, se considera aceptable en el contexto del marketing directo, donde el costo de contactar falsos positivos es relativamente bajo frente al beneficio de captar nuevos clientes.
- **Accuracy = 0.90**: alto nivel de aciertos globales, aunque este valor se interpreta con cautela debido al desbalance de clases.
- **Robustez y estabilidad**: el modelo mostró un rendimiento estable tanto en validación cruzada como en test, sin signos evidentes de sobreajuste.
- **Interpretabilidad**: mediante herramientas como SHAP y LIME se logró una buena comprensión del funcionamiento interno del modelo, fortaleciendo su confiabilidad.

### Comparación con otros modelos

Aunque modelos como **Random Forest** y **Regresión Logística** ofrecieron buenos resultados, no lograron superar al modelo XGBoost en términos de F1 Score y recall, métricas críticas para este caso de uso.

En contraste, modelos como **Naive Bayes** o **KNN** mostraron un desempeño significativamente inferior y fueron descartados.

---

### Conclusión

El modelo XGBoost tuneado se posiciona como la solución más **eficiente, equilibrada y robusta** para predecir la aceptación de campañas de marketing en el presente caso, y será utilizado como base para la implementación final.


> Por lo tanto, se selecciona el modelo **XGBoost con balanceo, escalado y selección automática de variables** como el modelo final del presente trabajo, al maximizar la capacidad del sistema para identificar clientes que efectivamente aceptarán una campaña, favoreciendo así la eficiencia en la gestión comercial del banco.


<a id="section-eight"></a>
<h2><strong>8- PRODUCTIVIZACIÓN DEL MODELO</strong></h2>

<p>
La productivización del modelo es el proceso de preparar y desplegar el modelo entrenado para su uso en entornos reales, garantizando que funcione de manera eficiente, escalable y mantenible.
</p>

<p>
En este TFM, se busca que el modelo predictivo pueda integrarse en un sistema que reciba datos nuevos, aplique el preprocesamiento adecuado y entregue predicciones automáticas. Para ello, se guarda el pipeline completo (preprocesamiento y modelo) usando herramientas como <code>joblib</code>, facilitando su carga y uso en producción.
</p>

<p>
Este paso es clave para transformar el trabajo de investigación en una solución práctica que aporte valor al banco, permitiendo la toma de decisiones basada en datos en tiempo real.
</p>


Primero se comienza por replicar el **preprocesamiento** utilizado en las etapasde desarrollo de este Notebook que permitirá transformar los datos ingresados en el chatbot del proyecto.

In [None]:
# ===============================
# 1. Clase de preprocesamiento manual personalizado
# ===============================

class PreprocessingTransformer(BaseEstimator, TransformerMixin):
    def fit(self, X, y=None):
        return self

    def transform(self, X):
        X = X.copy()

        # Reglas personalizadas
        X.loc[(X['age'] > 60) & (X['job'] == 'unknown'), 'job'] = 'retired'
        X.loc[(X['education'] == 'unknown') & (X['job'] == 'management'), 'education'] = 'university.degree'
        X.loc[(X['education'] == 'unknown') & (X['job'] == 'services'), 'education'] = 'high.school'
        X.loc[(X['education'] == 'unknown') & (X['job'] == 'housemaid'), 'education'] = 'basic.4y'
        X.loc[(X['job'] == 'unknown') & (X['education'] == 'basic.4y'), 'job'] = 'blue-collar'
        X.loc[(X['job'] == 'unknown') & (X['education'] == 'basic.6y'), 'job'] = 'blue-collar'
        X.loc[(X['job'] == 'unknown') & (X['education'] == 'basic.9y'), 'job'] = 'blue-collar'
        X.loc[(X['job'] == 'unknown') & (X['education'] == 'professional.course'), 'job'] = 'technician'

        # Transformaciones simples
        X['pdays'] = X['pdays'].apply(lambda x: 0 if x == 999 else x)

        X['month'].replace(
            ('jan', 'feb', 'mar', 'apr', 'may', 'jun', 'jul', 'aug', 'sep', 'oct', 'nov', 'dec'),
            range(1, 13), inplace=True)

        X['day_of_week'].replace(
            ('mon', 'tue', 'wed', 'thu', 'fri', 'sat', 'sun'),
            range(1, 8), inplace=True)

        # Binning de edad
        bins = [0, 25, 40, 60, 140]
        labels = ['young', 'lower middle aged', 'middle aged', 'senior']
        X['age_binned'] = pd.cut(X['age'], bins=bins, labels=labels, right=True, include_lowest=True)

        # Agrupamientos
        job_map = {
            'admin.': 'White-collar', 'management': 'White-collar', 'technician': 'White-collar',
            'blue-collar': 'Blue-collar', 'services': 'Blue-collar', 'housemaid': 'Blue-collar',
            'entrepreneur': 'Self-employed', 'self-employed': 'Self-employed',
            'retired': 'Non-active', 'student': 'Non-active', 'unemployed': 'Non-active',
            'unknown': 'Other'
        }
        X['job_grouped'] = X['job'].map(job_map)

        education_map = {
            'basic.9y': 'Basic', 'basic.4y': 'Basic', 'basic.6y': 'Basic',
            'high.school': 'Middle', 'professional.course': 'Middle',
            'university.degree': 'Superior', 'unknown': 'Other', 'illiterate': 'Other'
        }
        X['education_grouped'] = X['education'].map(education_map)

        # Nuevas variables combinadas
        X['contacted_previously'] = (X['previous'] >= 1).astype(int)
        X['life_stage'] = X['age_binned'].astype(str) + ' & ' + X['marital']
        X['socio-economic'] = X['job'].astype(str) + ' & ' + X['education']

        # Drop de columnas redundantes
        X.drop(columns=['nr.employed'], inplace=True)

        return X


Luego se continúa por establecer el mecanismo por el cual se **seleccionan solo un conjunto determinado de features**, las cuales coinciden con las features con las que se entrenó el modelo final optimizado.

In [None]:
# ===============================
# 2. Clase FeatureSelector personalizada
# ===============================

class FeatureSelector(BaseEstimator, TransformerMixin):
    def __init__(self, feature_names):
        self.feature_names = feature_names
    def fit(self, X, y=None):
        return self
    def transform(self, X):
        return X[self.feature_names]


Posteriormente, se reproduce un proceso de carga de datos, a los cuales se les quita la variable objetivo y se obtienen sus variables según sus tipologías específicas.

In [None]:
# ===============================
# 3. Preparación de los datos
# ===============================

#Efectúo la lectura del csv y guardo todo en un dataframe de Pandas con nombre df
X = pd.read_csv('bank-additional-full.csv', sep=';')

y = X['y'].replace({'no': 0, 'yes': 1})
X = X.drop(columns=['y'])

# Cargar las features seleccionadas previamente (después del encoding)
selected_features_rfecv = joblib.load('selected_features_rfecv.pkl')

model_final = joblib.load("modelo_final_xgb.pkl")

# Aplicar PreprocessingTransformer para generar nuevas variables
X_temp = PreprocessingTransformer().fit_transform(X)

# Detectar tipo de variables sobre el resultado del paso 1 (antes de codificar)
numeric_cols = X_temp.select_dtypes(include=['int64', 'float64']).columns.tolist()
categorical_cols = X_temp.select_dtypes(include=['object', 'category']).columns.tolist()

Para manejar las variables categóricas en el pipeline de preprocesamiento, vuelvo a utilizar la técnica de **codificación One Hot Encoding**.

In [None]:
# ===============================
# 4. OneHotEncoder personalizado como Transformer
# ===============================

#Clase que implementa un transformer para codificar variables categóricas mediante One Hot Encoding, integrable en pipelines de scikit-learn.
class OneHotEncoderTransformer(BaseEstimator, TransformerMixin):
    def __init__(self, categorical_cols):
        self.categorical_cols = categorical_cols
        self.encoder = OneHotEncoder(sparse_output=False, handle_unknown='ignore')

    def fit(self, X, y=None):
        X_ = X[self.categorical_cols].astype(str)
        self.encoder.fit(X_)
        self.feature_names_out = self.encoder.get_feature_names_out(self.categorical_cols)
        return self

    def transform(self, X):
        X = X.copy()
        X_cat = X[self.categorical_cols].astype(str)
        encoded = self.encoder.transform(X_cat)
        df_encoded = pd.DataFrame(encoded, columns=self.feature_names_out, index=X.index)
        X.drop(columns=self.categorical_cols, inplace=True)
        X = pd.concat([X, df_encoded], axis=1)
        return X


Ahora, con la siguiente clase `ManualScaler` implemento un transformer compatible con scikit-learn que aplica **`MinMaxScaler`** únicamente a las columnas numéricas especificadas.

In [None]:
# ===============================
# 5. Transformador personalizado para escalado manual de variables numéricas 
# ===============================

# Transformer personalizado que aplica MinMaxScaler únicamente a las columnas numéricas indicadas.
class ManualScaler(BaseEstimator, TransformerMixin):
    def __init__(self, numeric_cols):
        self.numeric_cols = numeric_cols
        self.scaler = MinMaxScaler()

    def fit(self, X, y=None):
        self.scaler.fit(X[self.numeric_cols])
        return self

    def transform(self, X):
        X = X.copy()
        X[self.numeric_cols] = self.scaler.transform(X[self.numeric_cols])
        return X


En esta siguiente etapa se **construye el pipeline completo** que integra todas las fases del preprocesamiento personalizado, la codificación de variables categóricas, la selección de características, el escalado de variables numéricas y el modelo final resultante.

El pipeline se entrena con los datos disponibles y, una vez ajustado, se guarda en disco utilizando `joblib`. Esto permite reutilizar el pipeline entrenado para realizar predicciones sobre datos nuevos sin necesidad de repetir todo el proceso desde cero.

In [None]:
# ===============================
# 6. Construcción, entrenamiento y guardado del pipeline final
# ===============================

# Reutilizo las clases que generé antes
pipeline_final = Pipeline([
    ('manual_preprocessing', PreprocessingTransformer()),
    ('encoding', OneHotEncoderTransformer(categorical_cols=categorical_cols)),
    ('feature_selection', FeatureSelector(selected_features_rfecv)),
    ('scaling', ManualScaler(numeric_cols=numeric_cols)),
    ('modelo', model_final)
])

# Ajusto el pipeline
pipeline_final.fit(X, y)

# Guardado para producción
joblib.dump(pipeline_final, 'pipeline_modelo_completo.pkl')

Una vez guardado el pipeline completo (que incluye todas las transformaciones y el modelo entrenado), es posible cargarlo para su uso posterior sin necesidad de reentrenar.

La celda de código a continuación, **inspecciona sus componentes internos para verificar las etapas y objetos que contiene el pipeline completo**.

In [None]:
# ===============================
# 7. Carga del pipeline guardado y acceso/revisión de sus componentes
# ===============================

# Cargo el pipeline completo previamente guardado, que incluye preprocesamiento y modelo
modelo = joblib.load("pipeline_modelo_completo.pkl")
# Visualización de los pasos del pipeline para verificar su estructura y componentes
modelo.named_steps  

### Desglose de los componentes del pipeline cargado

Al cargar el pipeline completo guardado, podemos inspeccionar sus etapas internas con `named_steps`. 

El output muestra que el pipeline contiene las siguientes fases:

- **manual_preprocessing**: Transformer personalizado para aplicar reglas manuales de preprocesamiento.
- **encoding**: Transformer que realiza One Hot Encoding sobre las columnas categóricas indicadas.
- **feature_selection**: Selector de características basado en la lista de features seleccionadas tras análisis previo.
- **scaling**: Escalador personalizado que aplica MinMaxScaler solo a las variables numéricas especificadas.
- **modelo**: El modelo entrenado final, en este caso un `XGBClassifier` con parámetros ajustados.

Este desglose permite verificar que todas las etapas necesarias para el procesamiento y predicción están correctamente integradas en el pipeline, facilitando su uso y mantenimiento.

### Detalle de implementación productiva final

Finalmente, se señala que en el repositorio de GitHub previamente referenciado se incluye el archivo **app.py**, el cual constituye el núcleo del backend de la aplicación productiva desarrollada. Dicho backend, en conjunto con otros módulos y un frontend interactivo, posibilita la integración del modelo predictivo con un chatbot capaz de responder consultas del usuario mediante un LLM. Este LLM se alimenta de información obtenida a través del método RAG, a partir de chunks extraídos del informe final del TFM en formato PDF.