##### En esta fase se realiza la limpieza y transformación del conjunto de datos, con el objetivo de corregir inconsistencias detectadas en la revisión preliminar, ajustar los tipos de dato según su contenido y tratar valores nulos o duplicados. Estas acciones permiten estandarizar la información y dejar el dataset preparado para su integración y posterior análisis exploratorio.

# Importación de librerias


In [41]:
# Tratamiento de datos.
import pandas as pd
pd.set_option('display.max_columns', None)

import numpy as np

import locale as lc
lc.setlocale(lc.LC_TIME, 'es_ES.UTF-8')

# Visualizaciones.
import matplotlib.pyplot as plt

import seaborn as sns

# Carga de datos de bank-additional.csv

In [42]:
df_bank = pd.read_csv('../data/1.raw/bank-additional.csv')

Se visualizan las primeras filas para comprobar que la base de datos se ha cargado correctamente.

In [43]:
df_bank.head()

Unnamed: 0.1,Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
0,0,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079
1,1,57.0,services,MARRIED,high.school,,0.0,0.0,telephone,149,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,e9d37224-cb6f-4942-98d7-46672963d097
2,2,37.0,services,MARRIED,high.school,0.0,1.0,0.0,telephone,226,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,15-febrero-2019,34.939,-94.847,3f9f49b5-e410-4948-bf6e-f9244f04918b
3,3,40.0,admin.,MARRIED,basic.6y,0.0,0.0,0.0,telephone,151,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,29-noviembre-2015,49.041,-70.308,9991fafb-4447-451a-8be2-b0df6098d13e
4,4,56.0,services,MARRIED,high.school,0.0,0.0,1.0,telephone,307,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,29-enero-2017,38.033,-104.463,eca60b76-70b6-4077-80ba-bc52e8ebb0eb


Se visualizan las ultimas filas para comprobar que la base de datos se ha cargado correctamente.

In [44]:
df_bank.tail()

Unnamed: 0.1,Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
42995,19154,,admin.,MARRIED,university.degree,0.0,0.0,0.0,cellular,618,2,999,0,NONEXISTENT,1.4,93444,-361,,52281,yes,13-octubre-2015,38.147,-105.582,4eed05de-2a98-4227-b488-32122009b638
42996,26206,34.0,technician,MARRIED,professional.course,0.0,1.0,1.0,cellular,42,7,999,0,NONEXISTENT,-0.1,932,-42,,51958,no,17-marzo-2018,49.235,-112.201,0f0aca88-4088-4fe2-905f-44fb675d9493
42997,15046,,blue-collar,SINGLE,basic.6y,0.0,1.0,0.0,cellular,391,2,999,0,NONEXISTENT,1.4,93918,-427,,52281,no,15-septiembre-2016,40.679,-120.015,cadadd4b-7ee5-4019-b13a-ca01bb67ca5b
42998,15280,,admin.,MARRIED,university.degree,,0.0,0.0,cellular,674,3,999,0,NONEXISTENT,1.4,93918,-427,4958.0,52281,no,23-septiembre-2019,27.772,-117.518,5f432048-d515-4bb5-9c94-62db451f88d4
42999,27570,,unemployed,SINGLE,university.degree,0.0,0.0,1.0,cellular,104,2,999,0,NONEXISTENT,-0.1,932,-42,4021.0,51958,no,6-noviembre-2019,41.146,-105.026,993bbbd6-4dbc-4a40-a408-f91f8462bee6


## Examinamos los tipos de columnas categóricas y numéricas que tenemos

In [45]:
df_bank.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 43000 entries, 0 to 42999
Data columns (total 24 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Unnamed: 0      43000 non-null  int64  
 1   age             37880 non-null  float64
 2   job             42655 non-null  object 
 3   marital         42915 non-null  object 
 4   education       41193 non-null  object 
 5   default         34019 non-null  float64
 6   housing         41974 non-null  float64
 7   loan            41974 non-null  float64
 8   contact         43000 non-null  object 
 9   duration        43000 non-null  int64  
 10  campaign        43000 non-null  int64  
 11  pdays           43000 non-null  int64  
 12  previous        43000 non-null  int64  
 13  poutcome        43000 non-null  object 
 14  emp.var.rate    43000 non-null  float64
 15  cons.price.idx  42529 non-null  object 
 16  cons.conf.idx   43000 non-null  object 
 17  euribor3m       33744 non-null 

# Limpieza de datos

## 1º Transformación de datos

En este apartado se llevan a cabo las transformaciones necesarias para corregir las inconsistencias detectadas y asegurar que las variables del conjunto de datos presenten un formato adecuado para su análisis posterior.

### Análisis de fechas

Se convierte el tipo de dato de la columna ``date`` de ``object`` a ``datetime``.

In [46]:
df_bank['date'] = pd.to_datetime( df_bank['date'], format='%d-%B-%Y', errors='coerce')

df_bank['date']

0       2019-08-02
1       2016-09-14
2       2019-02-15
3       2015-11-29
4       2017-01-29
           ...    
42995   2015-10-13
42996   2018-03-17
42997   2016-09-15
42998   2019-09-23
42999   2019-11-06
Name: date, Length: 43000, dtype: datetime64[ns]

### Remplazo en columnas comas por puntos

Se sustituyen las comas por puntos en las columnas ``cons.price.idx``, ``cons.conf.idx`` y ``euribor3m``, con el fin de corregir su formato numérico y permitir su conversión adecuada de tipo ``object`` a tipo ``float64``.

In [47]:
columns_cambio = ['cons.price.idx', 'cons.conf.idx', 'euribor3m']

for col in columns_cambio:

    if df_bank[col].dtype == 'object':

        df_bank[col] = df_bank[col].str.replace(',','.').astype(float)

print(df_bank['cons.price.idx'].dtype)

print(df_bank['cons.conf.idx'].dtype)

print(df_bank['euribor3m'].dtype)

df_bank[columns_cambio] = df_bank[columns_cambio]

df_bank[columns_cambio].head()

float64
float64
float64


Unnamed: 0,cons.price.idx,cons.conf.idx,euribor3m
0,93.994,-36.4,4.857
1,93.994,-36.4,
2,93.994,-36.4,4.857
3,93.994,-36.4,
4,93.994,-36.4,


Se sustituyen las comas por puntos en la columna ``nr.employed`` para corregir su formato y permitir su conversión adecuada de tipo ``object`` a tipo ``int64``.

In [48]:
if df_bank['nr.employed'].dtype == 'object':
    
    df_bank['nr.employed'] = df_bank['nr.employed'].str.replace(',', '.').astype(float).astype(int)

print(df_bank['nr.employed'].dtype)

df_bank['nr.employed'] = df_bank['nr.employed']

df_bank['nr.employed']

int64


0        5191
1        5191
2        5191
3        5191
4        5191
         ... 
42995    5228
42996    5195
42997    5228
42998    5228
42999    5195
Name: nr.employed, Length: 43000, dtype: int64

### Se realiza la conversión al tipo `int`

Se convierte la columna ``age`` del tipo ``float64`` a tipo ``int64``, dado que la edad corresponde a un valor entero y no admite decimales.

In [49]:
df_bank['age'] = df_bank['age'].astype('Int64')  

print(df_bank['age'].dtype)

df_bank['age'] = df_bank['age']

df_bank['age'].head()

Int64


0    <NA>
1      57
2      37
3      40
4      56
Name: age, dtype: Int64

### Cambiamos los 1 por si y los 0 por no.

En las columnas `default`, ``housing`` y ``loan`` se sustituyen los valores ``1`` y ``0`` por `si` y `no`, respectivamente, con el fin de mejorar la legibilidad e interpretación de su contenido.

In [50]:
columns_cambio2 = ["default", "housing", "loan"]

df_bank[columns_cambio2] = df_bank[columns_cambio2].replace({1: "yes", 0: "no"})

df_bank[columns_cambio2] = df_bank[columns_cambio2]

df_bank[columns_cambio2].head()

Unnamed: 0,default,housing,loan
0,no,no,no
1,,no,no
2,no,yes,no
3,no,no,no
4,no,no,yes


### Homogeneización de los valores de variable `y`

En la columna `y` se sustituyen los valores `yes` y `no` por `si` y `no`, respectivamente, con el fin de mantener la coherencia de formato con el resto de variables del conjunto de datos.

In [11]:
df_bank['y'] = df_bank['y'].replace({ "yes" : "si" , "no" : "no"})

df_bank['y'] = df_bank['y']

df_bank['y']

0        no
1        no
2        no
3        no
4        no
         ..
42995    si
42996    no
42997    no
42998    no
42999    no
Name: y, Length: 43000, dtype: object

### Homogeneizar el texto en variables categóricas

Se convierten las columnas `marital`y `poutcome` a minúsculas con el fin de unificar su formato y mantener la coherencia con el resto de variables de tipo `object`.

In [51]:
columns_cambio3 = ["marital", "poutcome"]

df_bank[columns_cambio3] = df_bank[columns_cambio3].apply(lambda x: x.str.lower())

df_bank[columns_cambio3] = df_bank[columns_cambio3]

df_bank[columns_cambio3].head()

Unnamed: 0,marital,poutcome
0,married,nonexistent
1,married,nonexistent
2,married,nonexistent
3,married,nonexistent
4,married,nonexistent


### Corrección del signo en la variable

Se observa que la columna `cons.conf.idx` presenta todos sus valores expresados en negativo, lo cual no resulta coherente con la interpretación habitual del índice. Por este motivo, se procede a eliminar el signo negativo para corregir su representación y asegurar la consistencia de la variable.

In [52]:
df_bank['cons.conf.idx'] = df_bank['cons.conf.idx'].abs()

df_bank['cons.conf.idx'] = df_bank['cons.conf.idx']

df_bank['cons.conf.idx'].head()

0    36.4
1    36.4
2    36.4
3    36.4
4    36.4
Name: cons.conf.idx, dtype: float64

Se ejecuta nuevamente el método `info()` con el fin de verificar que todas las transformaciones se han aplicado correctamente y que los tipos de datos son ahora coherentes con la estructura esperada.

In [53]:
df_bank.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 43000 entries, 0 to 42999
Data columns (total 24 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Unnamed: 0      43000 non-null  int64         
 1   age             37880 non-null  Int64         
 2   job             42655 non-null  object        
 3   marital         42915 non-null  object        
 4   education       41193 non-null  object        
 5   default         34019 non-null  object        
 6   housing         41974 non-null  object        
 7   loan            41974 non-null  object        
 8   contact         43000 non-null  object        
 9   duration        43000 non-null  int64         
 10  campaign        43000 non-null  int64         
 11  pdays           43000 non-null  int64         
 12  previous        43000 non-null  int64         
 13  poutcome        43000 non-null  object        
 14  emp.var.rate    43000 non-null  float64       
 15  co

## 2º Duplicados

In [54]:
df_bank.duplicated().sum()

np.int64(0)

Tal como se identificó en el análisis preliminar, no se han detectado filas duplicadas en el conjunto de datos, por lo que no es necesario realizar ninguna eliminación en este aspecto.

## 3º Valores nulos

Tal como se aprecia mediante el método `info()`, algunas columnas presentan un recuento inferior de registros, lo que evidencia la existencia de valores nulos en el conjunto de datos.

Se visualiza el número de valores nulos por columna con el fin de identificar de manera clara y directa la magnitud de datos incompletos en cada variable.

In [55]:
nulos = df_bank.isna().sum().sort_values(ascending=False)

print(nulos[nulos > 0])

euribor3m         9256
default           8981
age               5120
education         1807
loan              1026
housing           1026
cons.price.idx     471
job                345
date               248
marital             85
dtype: int64


Se calcula el porcentaje que representan estos valores nulos dentro de cada columna con el objetivo de evaluar su impacto real en el conjunto de datos.

In [56]:
nulos_porc = df_bank.isna().mean().round(4).sort_values(ascending=False)*100

print(nulos_porc[nulos_porc > 0])

euribor3m         21.53
default           20.89
age               11.91
education          4.20
loan               2.39
housing            2.39
cons.price.idx     1.10
job                0.80
date               0.58
marital            0.20
dtype: float64


Se procede a eliminar las filas que contienen valores nulos en las columnas `education`, `loan`, `housing`, `cons.price.idx`, `job` , `date` y `marital`, dado que su proporción es reducida y su eliminación no implica una pérdida significativa de información. Esta depuración permite trabajar con un conjunto de datos más consistente y mejor estructurado.

In [57]:
df_bank.dropna(subset=['education', 'loan', 'housing', 'cons.price.idx', 'job' , 'date', 'marital'], inplace=True)

nulos = df_bank.isna().sum().sort_values(ascending=False)

print(nulos[nulos > 0])

nulos_porc2 = df_bank.isna().mean().round(4).sort_values(ascending=False)*100

print(nulos_porc2[nulos_porc2 > 0])

euribor3m    8455
default      7990
age          4630
dtype: int64
euribor3m    21.53
default      20.35
age          11.79
dtype: float64


Se observa que, tras eliminar las filas con valores nulos en las columnas seleccionadas, el número total de registros disminuye. Únicamente permanecen tres columnas con datos incompletos, `euribor3m`, `default`, `age` sin embargo, debido a que representan un porcentaje considerable, no se eliminan para evitar una pérdida significativa de información.

Se procede a imputar los valores nulos restantes en las columnas identificadas, con el objetivo de completar la información disponible y garantizar un conjunto de datos adecuado para su análisis.

Se inicia el proceso de imputación, en primer lugar las columnas de naturaleza categórica.

In [58]:
columns_cate = df_bank.select_dtypes(include=['object', 'category']).columns

nulos_cate = df_bank[columns_cate].isna().sum()

nulos_cate[nulos_cate > 0]

default    7990
dtype: int64

In [59]:
moda_default = df_bank['default'].mode()[0]

print(f'La moda de nuestra variable es: {moda_default}')

df_bank['default'].value_counts()

La moda de nuestra variable es: no


default
no     31279
yes        3
Name: count, dtype: int64

Se observa que la moda de la variable `default` es `no` y que únicamente tres registros presentan el valor`yes`. Dado el claro predominio de la categoría mayoritaria, se imputan los valores nulos con `no`. En un escenario con una distribución más equilibrada entre categorías, se optaría por imputar los valores faltantes con `unknown` para evitar introducir sesgos en la variable.

In [60]:
df_bank['default'] = df_bank['default'].fillna(moda_default)

df_bank['default'].isna().sum()

np.int64(0)

Se verifica que la variable ya no presenta valores nulos. Este resultado confirma que el tratamiento de valores faltantes se ha realizado correctamente y que la  `default` queda completa para su uso en el análisis posterior.

A continuación se procede con la imputación correspondiente a las variables numéricas.

In [61]:
columns_num = df_bank.select_dtypes(include='number').columns

nulos_num = df_bank[columns_num].isna().sum()

nulos_num[nulos_num > 0]

age          4630
euribor3m    8455
dtype: int64

In [22]:
moda_age = df_bank['age'].mode()[0]

print(f'La moda de nuestra variable es: {moda_age}')

df_bank['age'].value_counts()

La moda de nuestra variable es: 31


age
31    1706
33    1606
32    1549
36    1519
34    1511
      ... 
91       2
98       2
95       1
87       1
94       1
Name: count, Length: 77, dtype: Int64

En este caso se aprecia una alta diversidad de valores y la ausencia de una categoría claramente predominante, lo que impide utilizar la moda como criterio de imputación.

Se opta por imputar los valores nulos de la variable `age` utilizando la `mediana`, dado que constituye una medida robusta frente a valores atípicos. A diferencia de la media, la mediana no se ve afectada por edades excepcionalmente altas o bajas, lo que permite preservar la estructura real de la distribución. Este enfoque garantiza una imputación más estable y coherente, especialmente en variables demográficas donde es fundamental evitar sesgos derivados de valores extremos.

In [62]:
mediana_age = df_bank['age'].median()

mediana_age.astype('int64')

df_bank['age'] = df_bank['age'].fillna(mediana_age)

df_bank['age'].isna().sum()

np.int64(0)

Al revisar la columna, se comprueba que no quedan registros faltantes, lo que indica que la imputación se ha aplicado con éxito.

In [63]:
moda_euribor3m = df_bank['euribor3m'].mode()[0]

print(f'La moda de nuestra variable es: {moda_euribor3m}')

df_bank['euribor3m'].value_counts()

La moda de nuestra variable es: 4.857


euribor3m
4.857    2062
4.962    1919
4.963    1875
4.961    1440
4.964     896
         ... 
0.895       1
0.888       1
4.921       1
0.953       1
0.956       1
Name: count, Length: 307, dtype: int64

En este caso también se observa una dispersión amplia de valores y la falta de una categoría que destaque sobre las demás, por lo que en este caso la moda tampoco resulta un criterio adecuado para realizar la imputación.

En este caso también se procede a imputar los valores nulos de la variable `euribor3m` utilizando la `mediana`, para obtener una mayor estabilidad frente a fluctuaciones extremas en los tipos de interés, y así mantener la coherencia del indicador económico.

In [24]:
mediana_euribor3m = df_bank['euribor3m'].median()

mediana_euribor3m.astype('int64')

df_bank['euribor3m'] = df_bank['euribor3m'].fillna(mediana_age)

df_bank['euribor3m'].isna().sum()

np.int64(0)

Se confirmando que los valores ausentes han sido tratados correctamente, Lya que muestra un conteo de nulos igual a cero en la variable.

In [25]:
df_bank.isna().sum()

Unnamed: 0        0
age               0
job               0
marital           0
education         0
default           0
housing           0
loan              0
contact           0
duration          0
campaign          0
pdays             0
previous          0
poutcome          0
emp.var.rate      0
cons.price.idx    0
cons.conf.idx     0
euribor3m         0
nr.employed       0
y                 0
date              0
latitude          0
longitude         0
id_               0
dtype: int64

Se verifica que, tras el proceso de imputación, el conjunto de datos ya no presenta valores nulos en ninguna de sus columnas. Este resultado confirma que la información disponible se encuentra completa y en condiciones adecuadas para avanzar hacia el análisis exploratorio y en las posteriores etapas del estudio.

## 4º Eliminación de columnas irrelevantes para el análisis

Vamos a eliminar las columnas que no nos aportan información relevante:

- `Unnamed: 0`: Columna generada automáticamente durante la exportación del archivo; no contiene información relevante y no aporta valor analítico.

- `default`: Presenta una variabilidad prácticamente inexistente, únicamente se observan dos valores únicos, de los cuales uno aparece en casi la totalidad de las filas y el otro solo en tres registros. Esta falta de diversidad limita su utilidad analítica y justifica su eliminación.

- `pdays`: Esta variable presenta un valor dominante de 999, empleado como indicador de ausencia de contacto previo. Esta codificación genera una distribución altamente sesgada y con escasa variabilidad informativa, dado que la mayoría de los registros adoptan dicho valor y las observaciones restantes representan una proporción marginal. Como resultado, la variable no aporta capacidad discriminativa y carece de utilidad analítica.

- `previous`: La variable muestra un claro dominio del valor 0, reflejando que la mayoría de los clientes no participó en campañas anteriores. La presencia de valores superiores es residual, lo que reduce su variabilidad y limita su capacidad explicativa. Dado que no aporta información discriminativa relevante y añade ruido al análisis, se justifica su eliminación del conjunto de 
datos.

- `nr.employe`: Esta variable corresponde únicamente a un identificador interno del empleado y no contiene información cuantitativa ni comportamental útil para el análisis. Al no representar una característica del cliente ni un atributo asociado al proceso de contratación, carece de valor analítico y no se considera en la interpretación de resultados, por ello se elimina del conjunto de datos para evitar introducir ruido en el análisis.

- `latitude`: Variable geográfica que no guarda relación directa con el fenómeno analizado y no contribuye a la explicación del comportamiento del cliente.

- `longitude`: Al igual que la latitud, representa ubicación geográfica sin relevancia para el análisis, por lo que puede eliminarse sin pérdida significativa de información.

Es posible que en fases posteriores del análisis sea necesario descartar variables adicionales; no obstante, por el momento se procederá únicamente a la eliminación de las columnas identificadas.

In [64]:
columns_eliminar = ['Unnamed: 0', 'default', 'pdays', 'previous', 'nr.employed', 'latitude', 'longitude']

df_bank.drop( columns= columns_eliminar, inplace=True)

Se examina el número de filas y columnas restantes en el conjunto de datos tras la eliminación de las variables seleccionadas.

In [65]:
print(f'El número de filas es: {df_bank.shape[0]} y El número de columnas es: {df_bank.shape[1]}')

El número de filas es: 39272 y El número de columnas es: 17


In [66]:
print(f'Las columnas restantes son: {df_bank.columns}')

Las columnas restantes son: Index(['age', 'job', 'marital', 'education', 'housing', 'loan', 'contact',
       'duration', 'campaign', 'poutcome', 'emp.var.rate', 'cons.price.idx',
       'cons.conf.idx', 'euribor3m', 'y', 'date', 'id_'],
      dtype='object')


Aplicamos un `head()` para observar el resultado final despues de aplicar todas las transformaciones, transformaciones y eliminacion de variables.

In [67]:
df_bank.head()

Unnamed: 0,age,job,marital,education,housing,loan,contact,duration,campaign,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,y,date,id_
0,38,housemaid,married,basic.4y,no,no,telephone,261,1,nonexistent,1.1,93.994,36.4,4.857,no,2019-08-02,089b39d8-e4d0-461b-87d4-814d71e0e079
1,57,services,married,high.school,no,no,telephone,149,1,nonexistent,1.1,93.994,36.4,,no,2016-09-14,e9d37224-cb6f-4942-98d7-46672963d097
2,37,services,married,high.school,yes,no,telephone,226,1,nonexistent,1.1,93.994,36.4,4.857,no,2019-02-15,3f9f49b5-e410-4948-bf6e-f9244f04918b
3,40,admin.,married,basic.6y,no,no,telephone,151,1,nonexistent,1.1,93.994,36.4,,no,2015-11-29,9991fafb-4447-451a-8be2-b0df6098d13e
4,56,services,married,high.school,no,yes,telephone,307,1,nonexistent,1.1,93.994,36.4,,no,2017-01-29,eca60b76-70b6-4077-80ba-bc52e8ebb0eb


Se procede a renombrar la columna `id_` a `id` en `df_bank` con el objetivo de unificar la denominación de la clave identificadora entre ambos conjuntos de datos. Esta homogeneización facilita la realización de operaciones de unión y mejora la claridad y coherencia de la estructura del dataset combinado.

In [68]:
df_bank = df_bank.rename(columns={'id_' : 'id'})

Verificamos que la modificación se haya aplicado correctamente mediante una consulta a `df_bank.columns`, lo que permite confirmar la estructura actual del conjunto de variables.

In [69]:
df_bank.columns

Index(['age', 'job', 'marital', 'education', 'housing', 'loan', 'contact',
       'duration', 'campaign', 'poutcome', 'emp.var.rate', 'cons.price.idx',
       'cons.conf.idx', 'euribor3m', 'y', 'date', 'id'],
      dtype='object')

Procedemos a guardar la nueva base de datos depurada y lista para su análisis bajo el nombre `bank-additional_limpio.csv`.

In [70]:
df_bank.to_csv('../data/2.processed/bank-additional_limpio.csv', index=False)

## Revisión de `customer-details.xlsx` 

Tal y como se identificó en la fase de análisis preliminar, el conjunto de datos `customer-details` no presenta valores nulos ni registros duplicados, y sus variables cuentan con tipos de dato coherentes con su contenido. Por ello, no es necesario aplicar correcciones adicionales en términos de limpieza o transformación en esta etapa.

Se verifica en la base de datos `customer-details.xlsx` si la variable `ID`, correspondiente al identificador del cliente, presenta valores únicos. Este paso garantiza que actúe como clave primaria y evita la generación de duplicados durante el proceso de integración con otras bases de datos.

In [71]:
df_customer = pd.read_excel('../data/1.raw/customer-details.xlsx', sheet_name= None, index_col=0)

df_union = pd.concat(df_customer.values(), ignore_index=True)

In [72]:
df_union['ID'].nunique(), len(df_union)

(43170, 43170)

Se observa que el resultado entre el número de valores únicos de `ID` y el total de registros es el mismo, confirmando que esta variable actúa como identificador exclusivo y que no existen duplicidades en el conjunto de datos.  

Se lleva a cabo la estandarización de los nombres de las columnas con el fin de asegurar una nomenclatura homogénea y coherente con la empleada en la base de datos `bank-additional_limpio`, favoreciendo así la consistencia en todo el proyecto.

In [73]:
df_union = df_union.rename(columns={'Income' : 'income', 'Kidhome' : 'kidhome', 'Teenhome' : 'teenhome', 'Dt_Customer' : 'dt_customer', 'NumWebVisitsMonth' : 'numwebvisitsmonth', 'ID' : 'id'})

df_union.columns

Index(['income', 'kidhome', 'teenhome', 'dt_customer', 'numwebvisitsmonth',
       'id'],
      dtype='object')

Se procede a guardar la base de datos estandarizada con el fin de mantener una nomenclatura coherente y un formato homogéneo. En este caso, se transforma el archivo original en formato `xlsx` a `csv`, dado que la otra base de datos que se integrará posteriormente también se encuentra en formato `csv`. Esta unificación de formatos facilita el proceso de unión y garantiza una gestión más consistente de los datos en las etapas siguientes.

In [74]:
df_union.to_csv('../data/2.processed/customer-details_limpio.csv', index= False)

La base de datos `customer-details.xlsx` ha sido revisada y todas las variables se encuentran correctamente estructuradas y no presentan inconsistencias relevantes. Dado que no se identifican valores atípicos, formatos incorrectos ni problemas de calidad de datos, no es necesario aplicar transformaciones ni procedimientos de limpieza adicionales. 

En estas condiciones, el conjunto de datos está preparado para continuar con las siguientes fases del proyecto y puede utilizarse directamente sin requerir ajustes adicionales.

# Unión de bases de datos

Procedemos a unificar las distintas bases de datos con el fin de disponer de un conjunto integrado y coherente. Esta consolidación permite trabajar con una estructura única que facilitará las fases posteriores del análisis y garantizará una visión completa de la información disponible.

In [75]:
df_final = df_bank.merge(df_union, on= 'id', how= 'left')

Se realiza la unión `df_final = df_bank.merge(df_union, on='ID', how='left')` para integrar en un único conjunto de datos la información de campaña contenida en `df_bank` con los detalles adicionales de cada cliente presentes en `df_union`, utilizando la columna `ID` como clave común. El uso de `left join` garantiza que se conserven todos los registros de `df_bank`, incorporando la información de `df_union` únicamente cuando exista correspondencia, sin perder observaciones relevantes para el análisis.

## Revisión de `df_final`

Se ejecuta `df_final.shape` con el propósito de confirmar las dimensiones del conjunto de datos, verificando que el número de registros y variables coincide con lo previsto tras el proceso de integración y depuración.

In [76]:
print(f"El número de filas es {df_final.shape[0]} y el número de columnas es {df_final.shape[1]} ")

El número de filas es 39272 y el número de columnas es 22 


Mediante `df_final.info()` se revisa la estructura interna del dataset, identificando el tipo de dato asociado a cada columna y detectando la presencia de valores nulos, lo que proporciona una visión técnica precisa del estado actual de la información.

In [77]:
df_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39272 entries, 0 to 39271
Data columns (total 22 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   age                39272 non-null  Int64         
 1   job                39272 non-null  object        
 2   marital            39272 non-null  object        
 3   education          39272 non-null  object        
 4   housing            39272 non-null  object        
 5   loan               39272 non-null  object        
 6   contact            39272 non-null  object        
 7   duration           39272 non-null  int64         
 8   campaign           39272 non-null  int64         
 9   poutcome           39272 non-null  object        
 10  emp.var.rate       39272 non-null  float64       
 11  cons.price.idx     39272 non-null  float64       
 12  cons.conf.idx      39272 non-null  float64       
 13  euribor3m          30817 non-null  float64       
 14  y     

Se confirma que todas las variables presentan el mismo número de observaciones, lo que indica una estructura consistente y sin desajustes en el número de registros.

A través de `df_final.isna().sum()` se cuantifican los valores faltantes en cada variable, permitiendo determinar qué columnas podrían requerir imputación, revisión adicional o un tratamiento específico antes de avanzar en el análisis.

In [78]:
df_final.isna().sum()

age                     0
job                     0
marital                 0
education               0
housing                 0
loan                    0
contact                 0
duration                0
campaign                0
poutcome                0
emp.var.rate            0
cons.price.idx          0
cons.conf.idx           0
euribor3m            8455
y                       0
date                    0
id                      0
income                  0
kidhome                 0
teenhome                0
dt_customer             0
numwebvisitsmonth       0
dtype: int64

Asimismo, `df_final.isna().sum()` devuelve cero valores faltantes en todas las columnas, evidenciando que el dataset no contiene información ausente y se encuentra completo para su análisis.

Para asegurar que la variable `ID` funciona correctamente como identificador único dentro del conjunto de datos, se compara el número de valores distintos en esta columna con el total de registros mediante la instrucción.

In [79]:
df_final['id'].nunique(), len(df_final)

(39272, 39272)

El resultado obtenido confirma que la cantidad de valores únicos en `ID` coincide exactamente con el número total de filas. Por tanto, la variable actúa como una clave única válida, ya que no existen duplicidades en el dataset.

## Se procede a guardar el conjunto de datos unificado

In [80]:
df_final.to_parquet("../data/2.processed/df_final.parquet")

Se guarda el archivo en formato `Parquet`, ya que conserva íntegramente los tipos de datos originales, incluidos los de tipo `datetime` y organiza la información en formato columnar, lo que optimiza el almacenamiento como la velocidad de lectura. Este formato reduce de manera notable el tamaño del archivo y permite cargar y procesar los datos de forma más eficiente que un CSV, facilitando así su uso en etapas posteriores del proyecto.