In [1]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

<h4>1. Carga del conjunto de datos</h4>

In [56]:
df = pd.read_csv('datasets/transformed_bankdataset.csv')

<h4>2. Exploración inicial del conjunto de datos</h4>

In [59]:
# Ver las primeras filas del dataframe
print(df.head())

# Información general sobre el dataframe
print(df.info())

    age         job  marital  education default  balance housing loan  \
0  59.0      admin.  married  secondary      no     2343     yes   no   
1  56.0      admin.  married  secondary      no       45      no   no   
2  41.0  technician  married  secondary      no     1270     yes   no   
3  55.0    services  married  secondary      no     2476     yes   no   
4  54.0      admin.  married   tertiary      no      184      no   no   

   contact  day  ... campaign  pdays  previous  poutcome  deposit balance_log  \
0  unknown    5  ...        1     -1         0   unknown      yes    9.126089   
1  unknown    5  ...        1     -1         0   unknown      yes    8.838407   
2  unknown    5  ...        1     -1         0   unknown      yes    9.001962   
3  unknown    5  ...        1     -1         0   unknown      yes    9.140454   
4  unknown    5  ...        2     -1         0   unknown      yes    8.858369   

  duration_log  campaign_log  pdays_log  previous_log  
0     6.950815    

<h4>3. División del conjunto de datos</h4>

In [62]:
# Separar las características y la variable objetivo
df = df.drop(columns=['balance', 'duration', 'campaign', 'pdays', 'previous'])# Seleccionamos solo las columnas transformadas (eliminando outliers)

X = df.drop(columns='deposit')
y = df['deposit']

# Dividir el conjunto de datos en entrenamiento y prueba (70% entrenamiento, 30% prueba)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# Se utiliza una proporción de 70-30 para asegurar un conjunto de entrenamiento robusto y un conjunto de prueba que
# permita evaluar el rendimiento del modelo de manera efectiva. La división en estratos asegura que ambas partes
# tengan una representación similar de las clases en la variable objetivo.


<h4>4. Codificación de variables categóricas</h4>

In [65]:
# Codificación de variables categóricas utilizando one-hot encoding (cambiar los string por binarios)
X_train = pd.get_dummies(X_train, drop_first=True)
X_test = pd.get_dummies(X_test, drop_first=True)

# Asegurar que ambas divisiones tengan las mismas columnas después de la codificación
X_train, X_test = X_train.align(X_test, join='left', axis=1, fill_value=0)

# One-hot encoding es adecuado aquí ya que transforma cada categoría en una nueva columna binaria,
# permitiendo que el modelo interprete cada categoría sin asumir un orden entre ellas.

<h4>5. Estandarización de variables numéricas</h4>

In [68]:
# Seleccionar las variables numéricas
numerical_cols = X_train.select_dtypes(include=['int64', 'float64']).columns

# Estandarizar las variables numéricas
scaler = StandardScaler()
X_train[numerical_cols] = scaler.fit_transform(X_train[numerical_cols])
X_test[numerical_cols] = scaler.transform(X_test[numerical_cols])

# La estandarización se utiliza para garantizar que todas las variables contribuyan de manera equitativa al modelo,
# especialmente para algoritmos que son sensibles a la escala de las variables, como KNN.

In [98]:
print("TEST SET: ")
print("mean: ")
print()
print(X_train[numerical_cols].mean())
print()
print("std: ")
print()
print(X_train[numerical_cols].std())
print()
print("TRAIN SET: ")
print("mean: ")
print()
print(X_test[numerical_cols].mean())
print()
print("std:" )
print()
print(X_test[numerical_cols].std())


TEST SET: 
mean: 

age             2.150817e-16
day             3.455859e-17
balance_log     4.539907e-15
duration_log    1.691552e-16
campaign_log   -1.191362e-16
pdays_log      -2.864725e-17
previous_log    3.865105e-17
dtype: float64

std: 

age             1.000064
day             1.000064
balance_log     1.000064
duration_log    1.000064
campaign_log    1.000064
pdays_log       1.000064
previous_log    1.000064
dtype: float64

TRAIN SET: 
mean: 

age             0.035247
day            -0.034285
balance_log     0.034025
duration_log    0.009666
campaign_log    0.034084
pdays_log      -0.000354
previous_log    0.001808
dtype: float64

std:

age             1.011948
day             0.994732
balance_log     1.011718
duration_log    1.000581
campaign_log    1.001671
pdays_log       1.000638
previous_log    1.008835
dtype: float64
