## Preparación de datos

#### Objetivos del Proyecto
* Identificar grupos homogéneos de clientes mediante la segmentación para personalizar campañas de marketing que ayude a aumentar la tasa de conversión y optimizar el retorno sobre la inversión, además reducir costos al enfocar los esfuerzos en segmentos con mayor probabilidad de respuesta.

* Se desea mejorar la identificación de segmentos de clientes basados en características demográficas y financieras, automatizando la asignación de los clientes a grupos específicos para diseñar estrategias de marketing personalizadas, así como facilitar el análisis masivo de datos, haciendo el proceso más rápido y eficiente.

In [1]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


In [2]:
clean_datos = pd.read_csv('bank_dataset_clean.csv')

In [3]:
clean_datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11162 entries, 0 to 11161
Data columns (total 9 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   job        11162 non-null  object 
 1   marital    11162 non-null  object 
 2   education  11162 non-null  object 
 3   default    11162 non-null  object 
 4   balance    11162 non-null  float64
 5   housing    11162 non-null  object 
 6   loan       11162 non-null  object 
 7   month      11162 non-null  object 
 8   deposit    11162 non-null  object 
dtypes: float64(1), object(8)
memory usage: 785.0+ KB


### Codificacion de las variables con yes/no

en esta parte he decidido codificar todas las variables que contengan como valor yes/no (deposit, default,housing,loan)

In [4]:
# Codificación de la variable objetivo
clean_datos['deposit_encoded'] = clean_datos['deposit'].map({'yes': 1, 'no': 0})

# Verificar los cambios
print(clean_datos[['deposit', 'deposit_encoded']].tail())

# Imprimir el valor en la fila 0 de la columna 'deposit'
print(clean_datos.loc[100, ['deposit', 'deposit_encoded']])
print(clean_datos.loc[11160, ['deposit', 'deposit_encoded']])

      deposit  deposit_encoded
11157      no                0
11158      no                0
11159      no                0
11160      no                0
11161      no                0
deposit            yes
deposit_encoded      1
Name: 100, dtype: object
deposit            no
deposit_encoded     0
Name: 11160, dtype: object


In [5]:
print(clean_datos.head())

          job  marital  education default  balance housing loan month deposit  \
0      admin.  married  secondary      no   2343.0     yes   no   may     yes   
1      admin.  married  secondary      no     45.0      no   no   may     yes   
2  technician  married  secondary      no   1270.0     yes   no   may     yes   
3    services  married  secondary      no   2476.0     yes   no   may     yes   
4      admin.  married   tertiary      no    184.0      no   no   may     yes   

   deposit_encoded  
0                1  
1                1  
2                1  
3                1  
4                1  


In [6]:
# Obtener la posición de la columna 'default'
col_index = clean_datos.columns.get_loc('default')

# Reordenar las columnas para insertar 'default_encoded' después de 'default'
columnas_antes = clean_datos.columns[:col_index + 1].tolist()
columnas_despues = clean_datos.columns[col_index + 1:].tolist()

# Codificar nuevamente para asegurar que la columna esté lista
clean_datos['default_encoded'] = clean_datos['default'].map({'yes': 1, 'no': 0})

# Reasignar las columnas del DataFrame en el orden correcto
clean_datos = clean_datos[columnas_antes + ['default_encoded'] + columnas_despues]

# Verificar los cambios
#print(clean_datos[['default', 'default_encoded']].head())

# Imprimir valores específicos
print(clean_datos.loc[100, ['default', 'default_encoded']])
print(clean_datos.loc[1160, ['default', 'default_encoded']])

default            no
default_encoded     0
Name: 100, dtype: object
default            no
default_encoded     0
Name: 1160, dtype: object


In [7]:
# Verificar el resultado
print(clean_datos.head())

          job  marital  education default  default_encoded  balance housing  \
0      admin.  married  secondary      no                0   2343.0     yes   
1      admin.  married  secondary      no                0     45.0      no   
2  technician  married  secondary      no                0   1270.0     yes   
3    services  married  secondary      no                0   2476.0     yes   
4      admin.  married   tertiary      no                0    184.0      no   

  loan month deposit  deposit_encoded  
0   no   may     yes                1  
1   no   may     yes                1  
2   no   may     yes                1  
3   no   may     yes                1  
4   no   may     yes                1  


In [8]:
# Obtener la posición de la columna 'housing'
col_index1 = clean_datos.columns.get_loc('housing')

# Reordenar las columnas para insertar 'default_encoded' después de 'default'
columnas_antes = clean_datos.columns[:col_index1 + 1].tolist()
columnas_despues = clean_datos.columns[col_index1 + 1:].tolist()

# Codificar nuevamente para asegurar que la columna esté lista
clean_datos['housing_encoded'] = clean_datos['housing'].map({'yes': 1, 'no': 0})

# Reasignar las columnas del DataFrame en el orden correcto
clean_datos = clean_datos[columnas_antes + ['housing_encoded'] + columnas_despues]

# Imprimir valores específicos
print(clean_datos.loc[100, ['housing', 'housing_encoded']])
print(clean_datos.loc[1160, ['housing', 'housing_encoded']])

housing            yes
housing_encoded      1
Name: 100, dtype: object
housing            no
housing_encoded     0
Name: 1160, dtype: object


In [9]:
# Verificar el resultado
print(clean_datos.head())

          job  marital  education default  default_encoded  balance housing  \
0      admin.  married  secondary      no                0   2343.0     yes   
1      admin.  married  secondary      no                0     45.0      no   
2  technician  married  secondary      no                0   1270.0     yes   
3    services  married  secondary      no                0   2476.0     yes   
4      admin.  married   tertiary      no                0    184.0      no   

   housing_encoded loan month deposit  deposit_encoded  
0                1   no   may     yes                1  
1                0   no   may     yes                1  
2                1   no   may     yes                1  
3                1   no   may     yes                1  
4                0   no   may     yes                1  


In [10]:
# Obtener la posición de la columna 'loan'
col_index2 = clean_datos.columns.get_loc('loan')

# Reordenar las columnas para insertar 'default_encoded' después de 'default'
columnas_antes = clean_datos.columns[:col_index2 + 1].tolist()
columnas_despues = clean_datos.columns[col_index2 + 1:].tolist()

# Codificar nuevamente para asegurar que la columna esté lista
clean_datos['loan_encoded'] = clean_datos['loan'].map({'yes': 1, 'no': 0})

# Reasignar las columnas del DataFrame en el orden correcto
clean_datos = clean_datos[columnas_antes + ['loan_encoded'] + columnas_despues]

# Imprimir valores específicos
print(clean_datos.loc[100, ['loan', 'loan_encoded']])
print(clean_datos.loc[1160, ['loan', 'loan_encoded']])

loan            no
loan_encoded     0
Name: 100, dtype: object
loan            no
loan_encoded     0
Name: 1160, dtype: object


In [11]:
# Verificar el resultado
print(clean_datos.head())

          job  marital  education default  default_encoded  balance housing  \
0      admin.  married  secondary      no                0   2343.0     yes   
1      admin.  married  secondary      no                0     45.0      no   
2  technician  married  secondary      no                0   1270.0     yes   
3    services  married  secondary      no                0   2476.0     yes   
4      admin.  married   tertiary      no                0    184.0      no   

   housing_encoded loan  loan_encoded month deposit  deposit_encoded  
0                1   no             0   may     yes                1  
1                0   no             0   may     yes                1  
2                1   no             0   may     yes                1  
3                1   no             0   may     yes                1  
4                0   no             0   may     yes                1  


para ir dandole forma al dataset en esta parte realizare el drop de las columnas que ya han sido codificadas.

In [12]:
drop_col = ['default','housing','loan','deposit']

datos_codificados = clean_datos.drop(columns=drop_col)
print(datos_codificados.head())

          job  marital  education  default_encoded  balance  housing_encoded  \
0      admin.  married  secondary                0   2343.0                1   
1      admin.  married  secondary                0     45.0                0   
2  technician  married  secondary                0   1270.0                1   
3    services  married  secondary                0   2476.0                1   
4      admin.  married   tertiary                0    184.0                0   

   loan_encoded month  deposit_encoded  
0             0   may                1  
1             0   may                1  
2             0   may                1  
3             0   may                1  
4             0   may                1  


- Ahora realizare One hot Encoders para las columnas de caracteristicas categoricas (marital, education, job y month) 

In [13]:
# Crear el objeto OneHotEncoder
encoder = OneHotEncoder(sparse_output=False, drop=None)

# Ajustar el encoder a la columna 'job' y transformar
marital_encoded = encoder.fit_transform(datos_codificados[['marital']])

# Crear un DataFrame con las columnas codificadas
marital_encoded_df = pd.DataFrame(marital_encoded, columns=encoder.get_feature_names_out(['marital']))

# Obtener el índice de la columna 'job' para posicionar las nuevas columnas
marital_index = datos_codificados.columns.get_loc('marital')

# Insertar las nuevas columnas justo después de la columna 'job'
datos_encoder = pd.concat([datos_codificados.iloc[:, :marital_index + 1], marital_encoded_df, datos_codificados.iloc[:, marital_index + 1:]], axis=1)

# Verificar los cambios
print("Columnas después de reordenar:")
print(datos_encoder.head())

Columnas después de reordenar:
          job  marital  marital_divorced  marital_married  marital_single  \
0      admin.  married               0.0              1.0             0.0   
1      admin.  married               0.0              1.0             0.0   
2  technician  married               0.0              1.0             0.0   
3    services  married               0.0              1.0             0.0   
4      admin.  married               0.0              1.0             0.0   

   education  default_encoded  balance  housing_encoded  loan_encoded month  \
0  secondary                0   2343.0                1             0   may   
1  secondary                0     45.0                0             0   may   
2  secondary                0   1270.0                1             0   may   
3  secondary                0   2476.0                1             0   may   
4   tertiary                0    184.0                0             0   may   

   deposit_encoded  
0         

In [14]:
# Crear el objeto OneHotEncoder
encoder = OneHotEncoder(sparse_output=False, drop=None)

# Ajustar el encoder a la columna 'job' y transformar
education_encoded = encoder.fit_transform(datos_encoder[['education']])

# Crear un DataFrame con las columnas codificadas
education_encoded_df = pd.DataFrame(education_encoded, columns=encoder.get_feature_names_out(['education']))

# Obtener el índice de la columna 'job' para posicionar las nuevas columnas
education_index = datos_encoder.columns.get_loc('education')

# Insertar las nuevas columnas justo después de la columna 'job'
datos_encoder1 = pd.concat([datos_encoder.iloc[:, :education_index + 1], education_encoded_df, datos_encoder.iloc[:, education_index + 1:]], axis=1)

# Verificar los cambios
print("Columnas después de reordenar:")
print(datos_encoder1.head())

Columnas después de reordenar:
          job  marital  marital_divorced  marital_married  marital_single  \
0      admin.  married               0.0              1.0             0.0   
1      admin.  married               0.0              1.0             0.0   
2  technician  married               0.0              1.0             0.0   
3    services  married               0.0              1.0             0.0   
4      admin.  married               0.0              1.0             0.0   

   education  education_primary  education_secondary  education_tertiary  \
0  secondary                0.0                  1.0                 0.0   
1  secondary                0.0                  1.0                 0.0   
2  secondary                0.0                  1.0                 0.0   
3  secondary                0.0                  1.0                 0.0   
4   tertiary                0.0                  0.0                 1.0   

   education_unknown  default_encoded  balance  h

In [15]:
# mapear meses a estaciones
meses_a_estaciones = {
    'jan': 'winter', 'feb': 'winter', 'mar': 'spring',
    'apr': 'spring', 'may': 'spring', 'jun': 'summer',
    'jul': 'summer', 'aug': 'summer', 'sep': 'autumn',
    'oct': 'autumn', 'nov': 'autumn', 'dec': 'winter'
}

# Obtener la posición de la columna
col_index3 = datos_encoder1.columns.get_loc('month')

# Reordenar las columnas para insertar '' después de ''
columnas_antes = datos_encoder1.columns[:col_index3 + 1].tolist()
columnas_despues = datos_encoder1.columns[col_index3 + 1:].tolist()

# Crear una nueva columna 'season' en el DataFrame basada en la columna 'month'
datos_encoder1['season'] = datos_encoder1['month'].map(meses_a_estaciones)

# Reasignar las columnas del DataFrame en el orden correcto
datos_encoder2 = datos_encoder1[columnas_antes + ['season'] + columnas_despues]

# Verificar los cambios
print("Columnas después de reordenar:")
print(datos_encoder2.head())

Columnas después de reordenar:
          job  marital  marital_divorced  marital_married  marital_single  \
0      admin.  married               0.0              1.0             0.0   
1      admin.  married               0.0              1.0             0.0   
2  technician  married               0.0              1.0             0.0   
3    services  married               0.0              1.0             0.0   
4      admin.  married               0.0              1.0             0.0   

   education  education_primary  education_secondary  education_tertiary  \
0  secondary                0.0                  1.0                 0.0   
1  secondary                0.0                  1.0                 0.0   
2  secondary                0.0                  1.0                 0.0   
3  secondary                0.0                  1.0                 0.0   
4   tertiary                0.0                  0.0                 1.0   

   education_unknown  default_encoded  balance  h

In [16]:
# Imprimir valores específicos
print(datos_encoder2.loc[100, ['month', 'season']])
print(datos_encoder2.loc[1160, ['month', 'season']])

month        may
season    spring
Name: 100, dtype: object
month        feb
season    winter
Name: 1160, dtype: object


In [17]:
# Crear el objeto OneHotEncoder
encoder = OneHotEncoder(sparse_output=False, drop=None)

# Ajustar el encoder a la columna '' 
season_encoded = encoder.fit_transform(datos_encoder2[['season']])

# Crear un DataFrame con las columnas codificadas
season_encoded_df = pd.DataFrame(season_encoded, columns=encoder.get_feature_names_out(['season']))

# Obtener el índice de la columna '' para posicionar las nuevas columnas
season_index = datos_encoder2.columns.get_loc('season')

# Insertar las nuevas columnas justo después de la columna ''
datos_encoder3 = pd.concat([datos_encoder2.iloc[:, :season_index + 1], season_encoded_df, datos_encoder2.iloc[:, season_index + 1:]], axis=1)

# Verificar los cambios
print("Columnas después de reordenar:")
print(datos_encoder3.head())

Columnas después de reordenar:
          job  marital  marital_divorced  marital_married  marital_single  \
0      admin.  married               0.0              1.0             0.0   
1      admin.  married               0.0              1.0             0.0   
2  technician  married               0.0              1.0             0.0   
3    services  married               0.0              1.0             0.0   
4      admin.  married               0.0              1.0             0.0   

   education  education_primary  education_secondary  education_tertiary  \
0  secondary                0.0                  1.0                 0.0   
1  secondary                0.0                  1.0                 0.0   
2  secondary                0.0                  1.0                 0.0   
3  secondary                0.0                  1.0                 0.0   
4   tertiary                0.0                  0.0                 1.0   

   education_unknown  ...  balance  housing_encod

In [18]:
# Hacer un conteo de los valores únicos en la columna 
valores = datos_encoder3['job'].value_counts()

# Imprimir el conteo
print(valores)

job
management       2566
blue-collar      1944
technician       1823
admin.           1334
services          923
retired           778
self-employed     405
student           360
unemployed        357
entrepreneur      328
housemaid         274
unknown            70
Name: count, dtype: int64


- Se realizara una agrupación de los jobs para conseguir tener menos categorias dentro de la variable. Por ello se opto por las siguientes: profesionales, t_manuales, out_laboral, unknown

In [19]:
# Diccionario de mapeo para agrupar ocupaciones
jobs_tranform = {
    'management': 'profesional',
    'technician': 'profesional',
    'admin.': 'profesional',
    'self-employed': 'profesional',
    'entrepreneur': 'profesional',
    'blue-collar': 't_manuales',
    'services': 't_manuales',
    'housemaid': 't_manuales',
    'retired': 'out_laboral',
    'student': 'out_laboral',
    'unemployed': 'out_laboral',
    'unknown': 'unknown'
}

# Obtener la posición de la columna
col_index4 = datos_encoder3.columns.get_loc('job')

# Reordenar las columnas para insertar '' después de ''
columnas_antes = datos_encoder3.columns[:col_index4 + 1].tolist()
columnas_despues = datos_encoder3.columns[col_index4 + 1:].tolist()

# Crear una nueva columna '' en el DataFrame basada en la columna ''
datos_encoder3['job_category'] = datos_encoder3['job'].map(jobs_tranform)

# Reasignar las columnas del DataFrame en el orden correcto
datos_encoder4 = datos_encoder3[columnas_antes + ['job_category'] + columnas_despues]

# Verificar los cambios
print("Columnas después de reordenar:")
print(datos_encoder4.head())

Columnas después de reordenar:
          job job_category  marital  marital_divorced  marital_married  \
0      admin.  profesional  married               0.0              1.0   
1      admin.  profesional  married               0.0              1.0   
2  technician  profesional  married               0.0              1.0   
3    services   t_manuales  married               0.0              1.0   
4      admin.  profesional  married               0.0              1.0   

   marital_single  education  education_primary  education_secondary  \
0             0.0  secondary                0.0                  1.0   
1             0.0  secondary                0.0                  1.0   
2             0.0  secondary                0.0                  1.0   
3             0.0  secondary                0.0                  1.0   
4             0.0   tertiary                0.0                  0.0   

   education_tertiary  ...  balance  housing_encoded  loan_encoded  month  \
0             

In [20]:
# Crear el objeto OneHotEncoder
encoder = OneHotEncoder(sparse_output=False, drop=None)

# Ajustar el encoder a la columna '' 
job_encoded = encoder.fit_transform(datos_encoder4[['job_category']])

# Crear un DataFrame con las columnas codificadas
job_encoded_df = pd.DataFrame(job_encoded, columns=encoder.get_feature_names_out(['job_category']))

# Obtener el índice de la columna '' para posicionar las nuevas columnas
job_index = datos_encoder4.columns.get_loc('job_category')

# Insertar las nuevas columnas justo después de la columna ''
datos_encoder5 = pd.concat([datos_encoder4.iloc[:, :job_index + 1], job_encoded_df, datos_encoder4.iloc[:, job_index + 1:]], axis=1)

# Verificar los cambios
print("Columnas después de reordenar:")
print(datos_encoder5.head())

Columnas después de reordenar:
          job job_category  job_category_out_laboral  \
0      admin.  profesional                       0.0   
1      admin.  profesional                       0.0   
2  technician  profesional                       0.0   
3    services   t_manuales                       0.0   
4      admin.  profesional                       0.0   

   job_category_profesional  job_category_t_manuales  job_category_unknown  \
0                       1.0                      0.0                   0.0   
1                       1.0                      0.0                   0.0   
2                       1.0                      0.0                   0.0   
3                       0.0                      1.0                   0.0   
4                       1.0                      0.0                   0.0   

   marital  marital_divorced  marital_married  marital_single  ... balance  \
0  married               0.0              1.0             0.0  ...  2343.0   
1  marr

In [21]:
datos_encoder5.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11162 entries, 0 to 11161
Data columns (total 26 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   job                       11162 non-null  object 
 1   job_category              11162 non-null  object 
 2   job_category_out_laboral  11162 non-null  float64
 3   job_category_profesional  11162 non-null  float64
 4   job_category_t_manuales   11162 non-null  float64
 5   job_category_unknown      11162 non-null  float64
 6   marital                   11162 non-null  object 
 7   marital_divorced          11162 non-null  float64
 8   marital_married           11162 non-null  float64
 9   marital_single            11162 non-null  float64
 10  education                 11162 non-null  object 
 11  education_primary         11162 non-null  float64
 12  education_secondary       11162 non-null  float64
 13  education_tertiary        11162 non-null  float64
 14  educat

In [22]:
drop_col2 = ['job','job_category','marital','month','season', 'education',]

datos_codificados2 = datos_encoder5.drop(columns=drop_col2)
print(datos_codificados2.head())

   job_category_out_laboral  job_category_profesional  \
0                       0.0                       1.0   
1                       0.0                       1.0   
2                       0.0                       1.0   
3                       0.0                       0.0   
4                       0.0                       1.0   

   job_category_t_manuales  job_category_unknown  marital_divorced  \
0                      0.0                   0.0               0.0   
1                      0.0                   0.0               0.0   
2                      0.0                   0.0               0.0   
3                      1.0                   0.0               0.0   
4                      0.0                   0.0               0.0   

   marital_married  marital_single  education_primary  education_secondary  \
0              1.0             0.0                0.0                  1.0   
1              1.0             0.0                0.0                  1.0   
2 

In [23]:
datos_codificados2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11162 entries, 0 to 11161
Data columns (total 20 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   job_category_out_laboral  11162 non-null  float64
 1   job_category_profesional  11162 non-null  float64
 2   job_category_t_manuales   11162 non-null  float64
 3   job_category_unknown      11162 non-null  float64
 4   marital_divorced          11162 non-null  float64
 5   marital_married           11162 non-null  float64
 6   marital_single            11162 non-null  float64
 7   education_primary         11162 non-null  float64
 8   education_secondary       11162 non-null  float64
 9   education_tertiary        11162 non-null  float64
 10  education_unknown         11162 non-null  float64
 11  default_encoded           11162 non-null  int64  
 12  balance                   11162 non-null  float64
 13  housing_encoded           11162 non-null  int64  
 14  loan_e

- Ahora solo hace fata la variable "Balance" para este aplicare RobustScaler de la libreria Scikit-learn que va muy bien para escalar variables, ya que es robusto frente a valores atípicos y teniendo en cuenta que los datos que se encuentran en la variable tiene valores extremos, se considera servira para manejarlos.

In [24]:
from sklearn.preprocessing import RobustScaler

In [25]:
# Crear una instancia del RobustScaler
scaler = RobustScaler()

# Escalar la columna 'balance' y crear una nueva columna 'balance_scaled'
datos_codificados2['balance_scaled'] = scaler.fit_transform(datos_codificados2[['balance']])

# Verificar los resultados
print(datos_codificados2[['balance', 'balance_scaled']].head())

   balance  balance_scaled
0   2343.0        1.130517
1     45.0       -0.318411
2   1270.0        0.453972
3   2476.0        1.214376
4    184.0       -0.230769


In [26]:
print(datos_codificados2.head())

   job_category_out_laboral  job_category_profesional  \
0                       0.0                       1.0   
1                       0.0                       1.0   
2                       0.0                       1.0   
3                       0.0                       0.0   
4                       0.0                       1.0   

   job_category_t_manuales  job_category_unknown  marital_divorced  \
0                      0.0                   0.0               0.0   
1                      0.0                   0.0               0.0   
2                      0.0                   0.0               0.0   
3                      1.0                   0.0               0.0   
4                      0.0                   0.0               0.0   

   marital_married  marital_single  education_primary  education_secondary  \
0              1.0             0.0                0.0                  1.0   
1              1.0             0.0                0.0                  1.0   
2 

In [27]:
datos_codificados3 = datos_codificados2.drop(columns='balance')
print(datos_codificados3.head())

   job_category_out_laboral  job_category_profesional  \
0                       0.0                       1.0   
1                       0.0                       1.0   
2                       0.0                       1.0   
3                       0.0                       0.0   
4                       0.0                       1.0   

   job_category_t_manuales  job_category_unknown  marital_divorced  \
0                      0.0                   0.0               0.0   
1                      0.0                   0.0               0.0   
2                      0.0                   0.0               0.0   
3                      1.0                   0.0               0.0   
4                      0.0                   0.0               0.0   

   marital_married  marital_single  education_primary  education_secondary  \
0              1.0             0.0                0.0                  1.0   
1              1.0             0.0                0.0                  1.0   
2 

In [28]:
# Guardar el dataset
datos_codificados3.to_csv('bank_dataset_preparados.csv', index=False)

### Division del dataset

he decidido hacer primero todo el proceso de codificacion, estandarizacion de las variables de dataset y posterior a ello hacer la division del mismo en el conjunto de entrenamiento y prueba, esto debido a que al dividirlo como primer paso deberia hacer el proceso de codificacion y estandarizacion por duplicado. 

Hare una division del dataset en conjuntos de entrenamiento (70%) y prueba (30%) ya que es uno de las particiones sugeridas.

In [29]:
from sklearn.model_selection import train_test_split

In [30]:
# Definir las características (X) y la variable objetivo (y)
X = datos_codificados3.drop('deposit_encoded', axis=1)  
y = datos_codificados3['deposit_encoded']

# Dividir en conjuntos de entrenamiento y prueba (70% - 30%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# Verificar las formas de los conjuntos resultantes
print("Tamaño de X_train:", X_train.shape)
print("Tamaño de X_test:", X_test.shape)
print("Tamaño de y_train:", y_train.shape)
print("Tamaño de y_test:", y_test.shape)

Tamaño de X_train: (7813, 19)
Tamaño de X_test: (3349, 19)
Tamaño de y_train: (7813,)
Tamaño de y_test: (3349,)


In [31]:
# Guardo los conjuntos de datos creados
X_train.to_csv('bank_X_train.csv', index=False)
X_test.to_csv('bank_X_test.csv', index=False)
y_train.to_csv('bank_y_train.csv', index=False)
y_test.to_csv('bank_y_test.csv', index=False)