##### En esta fase se lleva a cabo únicamente una revisión descriptiva del conjunto de datos, con el objetivo de identificar el tipo de variables disponibles y detectar posibles inconsistencias o anomalías. Por este motivo, no se aplicará ninguna corrección ni transformación, ya que estas acciones se abordarán en las etapas posteriores del proyecto.

# Importación de librerías

In [1]:
# Tratamiento de datos.

import pandas as pd
pd.set_option('display.max_columns', None)

import numpy as np

import locale as lc
lc.setlocale(lc.LC_TIME, 'es_ES.UTF-8')

# Visualizaciones.

import matplotlib.pyplot as plt

import seaborn as sns

# Carga de datos de bank-additional.csv

Se  procede a cargar el archivo `bank-additional.csv` en un DataFrame mediante `read_csv`.

In [2]:
df_bank = pd.read_csv('../data/1.raw/bank-additional.csv')

Se realiza una consulta `df_bank.columns` con el fin de revisar la composición del conjunto de datos y disponer de una referencia precisa sobre las variables que lo conforman. Posteriormente, se procederá a describir cada una de sus variables para facilitar su interpretación y uso en las siguientes etapas del análisis

In [3]:
df_bank.columns

Index(['Unnamed: 0', 'age', 'job', 'marital', 'education', 'default',
       'housing', 'loan', 'contact', 'duration', 'campaign', 'pdays',
       'previous', 'poutcome', 'emp.var.rate', 'cons.price.idx',
       'cons.conf.idx', 'euribor3m', 'nr.employed', 'y', 'date', 'latitude',
       'longitude', 'id_'],
      dtype='object')

# Columnas de datos

●   ``age``: La edad del cliente.

●   ``job``: La ocupación o profesión del cliente.

●   ``marital``: El estado civil del cliente.

●   ``education``: El nivel educativo del cliente.

●   ``default``: Indica si el cliente tiene algún historial de incumplimiento de pagos (1: Sí, 0: No).

●   ``housing``: Indica si el cliente tiene un préstamo hipotecario (1: Sí, 0: No).

●   ``loan``: Indica si el cliente tiene algún otro tipo de préstamo (1: Sí, 0: No).

●   ``contact``: El método de contacto utilizado para comunicarse con el cliente.

●   ``duration``: La duración en segundos de la última interacción con el cliente.

●   ``campaign``: El número de contactos realizados durante esta campaña para este cliente.

●   ``pdays``: Número de días que han pasado desde la última vez que se contactó con el cliente durante esta campaña.

●   ``previous``: Número de veces que se ha contactado con el cliente antes de esta campaña.

●   ``poutcome``: Resultado de la campaña de marketing anterior.

●   ``emp.var.rate``: La tasa de variación del empleo.

●   ``cons.price.idx``: El índice de precios al consumidor.

●   ``cons.conf.idx``: El índice de confianza del consumidor.

●   ``euribor3m``: La tasa de interés de referencia a tres meses.

●   ``nr.employed``: El número del empleado.

●   ``y``: Indica si el cliente ha suscrito un producto o servicio (Sí/No).

●   ``date``: La fecha en la que se realizó la interacción con el cliente.

●   ``contact_month``: Mes en el que se realizó la interacción con el cliente durante la campaña de marketing.

●   ``contact_year``: Año en el que se realizó la interacción con el cliente durante la campaña de marketing.

●   ``id_``: Un identificador único para cada registro en el dataset.

# Análisis preliminar

Se visualizan las primeras filas para comprobar que la base de datos se ha cargado correctamente.

In [4]:
df_bank.head()

Unnamed: 0.1,Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
0,0,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079
1,1,57.0,services,MARRIED,high.school,,0.0,0.0,telephone,149,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,e9d37224-cb6f-4942-98d7-46672963d097
2,2,37.0,services,MARRIED,high.school,0.0,1.0,0.0,telephone,226,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,15-febrero-2019,34.939,-94.847,3f9f49b5-e410-4948-bf6e-f9244f04918b
3,3,40.0,admin.,MARRIED,basic.6y,0.0,0.0,0.0,telephone,151,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,29-noviembre-2015,49.041,-70.308,9991fafb-4447-451a-8be2-b0df6098d13e
4,4,56.0,services,MARRIED,high.school,0.0,0.0,1.0,telephone,307,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,29-enero-2017,38.033,-104.463,eca60b76-70b6-4077-80ba-bc52e8ebb0eb


Se visualizan las ultimas filas para comprobar que la base de datos se ha cargado correctamente.

In [5]:
df_bank.tail()

Unnamed: 0.1,Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
42995,19154,,admin.,MARRIED,university.degree,0.0,0.0,0.0,cellular,618,2,999,0,NONEXISTENT,1.4,93444,-361,,52281,yes,13-octubre-2015,38.147,-105.582,4eed05de-2a98-4227-b488-32122009b638
42996,26206,34.0,technician,MARRIED,professional.course,0.0,1.0,1.0,cellular,42,7,999,0,NONEXISTENT,-0.1,932,-42,,51958,no,17-marzo-2018,49.235,-112.201,0f0aca88-4088-4fe2-905f-44fb675d9493
42997,15046,,blue-collar,SINGLE,basic.6y,0.0,1.0,0.0,cellular,391,2,999,0,NONEXISTENT,1.4,93918,-427,,52281,no,15-septiembre-2016,40.679,-120.015,cadadd4b-7ee5-4019-b13a-ca01bb67ca5b
42998,15280,,admin.,MARRIED,university.degree,,0.0,0.0,cellular,674,3,999,0,NONEXISTENT,1.4,93918,-427,4958.0,52281,no,23-septiembre-2019,27.772,-117.518,5f432048-d515-4bb5-9c94-62db451f88d4
42999,27570,,unemployed,SINGLE,university.degree,0.0,0.0,1.0,cellular,104,2,999,0,NONEXISTENT,-0.1,932,-42,4021.0,51958,no,6-noviembre-2019,41.146,-105.026,993bbbd6-4dbc-4a40-a408-f91f8462bee6


## Observamos el número de filas y columnas

In [6]:
print(f"El número de filas es {df_bank.shape[0]} y el número de columnas es {df_bank.shape[1]} ")

El número de filas es 43000 y el número de columnas es 24 


## Examinamos los tipos de columnas categóricas y numéricas que tenemos

In [7]:
df_bank.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 43000 entries, 0 to 42999
Data columns (total 24 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Unnamed: 0      43000 non-null  int64  
 1   age             37880 non-null  float64
 2   job             42655 non-null  object 
 3   marital         42915 non-null  object 
 4   education       41193 non-null  object 
 5   default         34019 non-null  float64
 6   housing         41974 non-null  float64
 7   loan            41974 non-null  float64
 8   contact         43000 non-null  object 
 9   duration        43000 non-null  int64  
 10  campaign        43000 non-null  int64  
 11  pdays           43000 non-null  int64  
 12  previous        43000 non-null  int64  
 13  poutcome        43000 non-null  object 
 14  emp.var.rate    43000 non-null  float64
 15  cons.price.idx  42529 non-null  object 
 16  cons.conf.idx   43000 non-null  object 
 17  euribor3m       33744 non-null 

Observamos que algunas columnas presentan un tipo de dato distinto al que les corresponde:

- La columna ``age`` figura como tipo ``float``, cuando la edad no puede contener decimales y por eso debería ser tipo ``int``.

- La columna ``date`` aparece como ``object`` cuando deberia almacenarse como ``datetime``.

- Las columnas ``cons.price.idx`` , ``cons.conf.idx``, ``euribor3m`` estan registradas como ``object`` cuando deberían ser tipo ``float``.

- La columna ``nr.employed`` se encuentra como un dato tipo ``object``, cuando el número de empleado debe representarse como ``int``. 


## Análisis de fechas

Se convierte la columna ``date`` de tipo ``object`` a ``datetime`` con el fin de identificar correctamente los valores únicos de los años y analizar el intervalo temporal presente en la base de datos.

In [8]:
df_bank['date'] = pd.to_datetime( df_bank['date'], format='%d-%B-%Y', errors='coerce')

print(f"Los valores únicos de los años para la columna {'date'} son: {df_bank['date'].dt.year.unique()}")

Los valores únicos de los años para la columna date son: [2019. 2016. 2015. 2017. 2018.   nan]


Se observa que los datos abarcan el periodo 2016–2019, ambos inclusive, y que algunas filas presentan valores nulos, aspecto que se analizará y tratará en etapas posteriores del proyecto.

## Duplicados

Se verifica la presencia de duplicados en la base de datos.


In [9]:
df_bank.duplicated().sum()

np.int64(0)

El resultado confirma que no hay filas duplicadas, por lo que no se requiere realizar ninguna eliminación.

## Valores nulos

Se evalúa el número total de valores nulos presentes en el conjunto de datos.

In [10]:
nulos = df_bank.isna().sum().sort_values(ascending=False)

nulos[nulos > 0]

euribor3m         9256
default           8981
age               5120
education         1807
loan              1026
housing           1026
cons.price.idx     471
job                345
date               248
marital             85
dtype: int64

El análisis confirma la existencia de valores nulos en varias columnas.

A continuación, se calcula el porcentaje de valores nulos por columna con el fin de determinar su relevancia y valorar el impacto que pueden tener en el análisis.

In [11]:
nulos_porcen = df_bank.isna().mean()*100

nulos_porcen[nulos_porcen > 0].round(2).sort_values(ascending=False)

euribor3m         21.53
default           20.89
age               11.91
education          4.20
loan               2.39
housing            2.39
cons.price.idx     1.10
job                0.80
date               0.58
marital            0.20
dtype: float64

El análisis revela que varias columnas presentan porcentajes de valores nulos que requieren especial atención:

- ``age``: aproximadamente un 12 %, lo que representa un volumen moderado de datos ausentes.

- ``default``: más del 20 %, indicando un nivel elevado de valores nulos.

- ``euribor3m``: en torno al 21 %, también con una proporción elevada de valores nulos.

- ``education``: algo superior al 4 %, porcentaje relativamente bajo.

En el resto de columnas, la presencia de valores nulos es mínima, en algunos casos prácticamente insignificantes.

Con esta información, es fundamental prestar especial atención a las variables con mayores porcentajes de valores nulos en las fases posteriores del análisis, ya que pueden influir de forma notable en la calidad y la fiabilidad de los resultados.

# Análisis de la estructura y composición de las variables

A continuación se analiza la distribución y el comportamiento de las variables del conjunto de datos, atendiendo a sus características y particularidades.

## Variables numéricas

In [12]:
columns_num = df_bank.select_dtypes(include='number').columns

columns_num

Index(['Unnamed: 0', 'age', 'default', 'housing', 'loan', 'duration',
       'campaign', 'pdays', 'previous', 'emp.var.rate', 'latitude',
       'longitude'],
      dtype='object')

El conjunto de datos incorpora múltiples variables numéricas que representan información demográfica, indicadores de actividad previa y métricas operativas relevantes para el análisis, incluyendo duración de interacciones, tasas económicas y recuentos asociados a campañas y contactos anteriores.

In [13]:
df_bank.describe(include='number').round(2).T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Unnamed: 0,43000.0,20651.1,11868.77,0.0,10381.75,20642.5,30930.25,41187.0
age,37880.0,39.98,10.44,17.0,32.0,38.0,47.0,98.0
default,34019.0,0.0,0.01,0.0,0.0,0.0,0.0,1.0
housing,41974.0,0.54,0.5,0.0,0.0,1.0,1.0,1.0
loan,41974.0,0.16,0.36,0.0,0.0,0.0,0.0,1.0
duration,43000.0,257.74,258.67,0.0,102.0,179.0,319.0,4918.0
campaign,43000.0,2.57,2.77,1.0,1.0,2.0,3.0,56.0
pdays,43000.0,962.33,187.26,0.0,999.0,999.0,999.0,999.0
previous,43000.0,0.17,0.5,0.0,0.0,0.0,0.0,7.0
emp.var.rate,43000.0,0.08,1.57,-3.4,-1.8,1.1,1.4,1.4


En este caso, el metodo ``describe`` se aplica únicamente a las variables numéricas, proporcionando un resumen estadístico detallado y específico para este tipo de datos.

En la tabla se muestra la cantidad de valores presentes en cada columna, las columnas ``age``, ``default``, ``housing``y ``loan`` muestran la presencia de valores ausentes.

También se pueden consultar la media de cada variable, junto con sus valores mínimo y máximo, además de su desviación estándar.

Por ultimo se muestran el primer cuartil (25 %), el segundo cuartil o mediana (50 %) y el tercer cuartil (75 %), que describen la distribución central de los datos.

Algunas variables no se incluyen en esta tabla porque actualmente están almacenadas como tipo `object`, lo que impide que se resuman junto a las variables numéricas. Este aspecto se corregirá en la fase de limpieza y transformación de datos, donde se ajustarán los tipos de dato para reflejar adecuadamente su contenido.

A continuación se analizan las variables numéricas calculando el número de valores únicos y revisando la frecuencia de sus principales registros, con el fin de comprender mejor su comportamiento y la variación presente en cada una de ellas.

In [14]:
for col in columns_num:
    
    print(f'La columna {col} tiene un total de {df_bank[col].nunique()} valores unicos')

    display(df_bank[col].value_counts().head(12))

La columna Unnamed: 0 tiene un total de 41032 valores unicos


Unnamed: 0
10610    2
19917    2
15809    2
3642     2
13494    2
7271     2
20552    2
9053     2
12766    2
13833    2
15569    2
11       2
Name: count, dtype: int64

La columna age tiene un total de 78 valores unicos


age
31.0    1810
33.0    1704
32.0    1672
36.0    1649
34.0    1608
30.0    1605
35.0    1600
29.0    1350
37.0    1343
39.0    1323
38.0    1295
41.0    1174
Name: count, dtype: int64

La columna default tiene un total de 2 valores unicos


default
0.0    34016
1.0        3
Name: count, dtype: int64

La columna housing tiene un total de 2 valores unicos


housing
1.0    22498
0.0    19476
Name: count, dtype: int64

La columna loan tiene un total de 2 valores unicos


loan
0.0    35442
1.0     6532
Name: count, dtype: int64

La columna duration tiene un total de 1540 valores unicos


duration
90     183
136    177
85     177
73     172
111    170
72     169
124    168
106    168
97     167
87     166
104    165
114    165
Name: count, dtype: int64

La columna campaign tiene un total de 42 valores unicos


campaign
1     18404
2     11048
3      5584
4      2777
5      1658
6      1025
7       658
8       418
9       289
10      236
11      183
12      130
Name: count, dtype: int64

La columna pdays tiene un total de 27 valores unicos


pdays
999    41412
3        457
6        428
4        121
9         67
7         66
2         63
12        61
10        55
5         50
13        38
11        30
Name: count, dtype: int64

La columna previous tiene un total de 8 valores unicos


previous
0    37103
1     4778
2      786
3      232
4       75
5       20
6        5
7        1
Name: count, dtype: int64

La columna emp.var.rate tiene un total de 10 valores unicos


emp.var.rate
 1.4    16980
-1.8     9620
 1.1     8020
-0.1     3830
-2.9     1748
-3.4     1133
-1.7      812
-1.1      665
-3.0      181
-0.2       11
Name: count, dtype: int64

La columna latitude tiene un total de 20491 valores unicos


latitude
44.675    10
36.826     9
30.579     8
44.335     8
32.888     8
47.146     8
40.821     7
46.645     7
34.317     7
26.423     7
39.353     7
36.376     7
Name: count, dtype: int64

La columna longitude tiene un total de 30448 valores unicos


longitude
-80.000     6
-84.358     6
-101.604    6
-88.922     6
-105.981    6
-109.152    6
-91.522     5
-102.652    5
-116.838    5
-67.527     5
-119.440    5
-106.710    5
Name: count, dtype: int64

**Observaciones:** 

`age`: La edad media de los clientes ronda los 40 años, con una distribución amplia que va desde los 17 hasta los 98. La dispersión observada sugiere una base de clientes diversa desde el punto de vista demográfico, lo que puede influir en su comportamiento financiero.

`default`: La variable muestra una variabilidad prácticamente nula, casi la totalidad de los registros se encuentra en valor 0, lo que indica ausencia de impagos. Esta falta de variación limita su utilidad para discriminar entre diferentes perfiles de cliente.

`housing`: El valor medio se sitúa en torno a 0.54, lo que indica que aproximadamente la mitad de los clientes tiene un préstamo hipotecario. La distribución binaria es equilibrada y podría aportar información relevante sobre la situación financiera del cliente.

`loan`: Solo un 16 % de los clientes tiene un préstamo personal, como refleja la media de 0.16. Esto indica que se trata de un tipo de endeudamiento minoritario dentro del conjunto de datos.

`duration`: La duración de las llamadas presenta una elevada dispersión, con un máximo muy superior al resto de valores. Este comportamiento sugiere la presencia de outliers significativos y refleja que algunas interacciones telefónicas fueron excepcionalmente extensas.

`campaign`: El número de contactos por campaña es reducido, con una media cercana a 2.6, aunque existen casos excepcionales de hasta 56 interacciones. Esto indica campañas generalmente breves, pero con algunos clientes que requirieron numerosos intentos.

`pdays`: El valor dominante es 999, que suele emplearse para indicar ausencia de contacto previo. Este patrón revela que la gran mayoría de los clientes no había sido contactada antes, y que la variable no aporta variabilidad sustantiva.

`previous`: La mayor parte de los registros presenta valor 0, evidenciando que la mayoría de clientes no participó en campañas anteriores. Los valores superiores son poco frecuentes, lo que limita la capacidad explicativa de esta variable.

`emp.var.rate`: La variable económica muestra variabilidad moderada, con valores que oscilan entre –3.4 y 1.4. Este rango refleja cambios en el entorno macroeconómico que podrían influir en las decisiones financieras de los clientes.
La distribución se sitúa mayormente en torno a valores económicos habituales entre –3.4 y 1.4, reflejando variabilidad moderada en el entorno económico.

In [15]:
df_bank.median(numeric_only=True).round(2)

Unnamed: 0      20642.50
age                38.00
default             0.00
housing             1.00
loan                0.00
duration          179.00
campaign            2.00
pdays             999.00
previous            0.00
emp.var.rate        1.10
latitude           36.76
longitude         -95.90
dtype: float64

``median``, es un método de pandas que calcula la mediana exclusivamente sobre las columnas de las variables numéricas del conjunto de datos. Al restringir el cálculo a este tipo de variables, proporciona una estimación más precisa de la tendencia central sin interferencia de columnas no cuantitativas.

## Variables categoricas

In [16]:
columns_cate = df_bank.select_dtypes(include= ['category', 'object']).columns

columns_cate

Index(['job', 'marital', 'education', 'contact', 'poutcome', 'cons.price.idx',
       'cons.conf.idx', 'euribor3m', 'nr.employed', 'y', 'id_'],
      dtype='object')

Estas variables recogen información cualitativa relacionada con la situación laboral, el estado civil, el nivel educativo, la formación, el historial crediticio y el tipo de interacción con el cliente, así como los resultados de campañas anteriores, la respuesta final y los identificadores asociados a cada registro.

In [17]:
df_bank.describe( include=['category', 'object']).T

Unnamed: 0,count,unique,top,freq
job,42655,11,admin.,10873
marital,42915,3,MARRIED,25999
education,41193,7,university.degree,12722
contact,43000,2,cellular,27396
poutcome,43000,3,NONEXISTENT,37103
cons.price.idx,42529,26,93994,7938
cons.conf.idx,43000,26,-364,8020
euribor3m,33744,309,4857,2287
nr.employed,43000,11,52281,16980
y,43000,2,no,38156


En este caso, el método ``describe`` se aplica únicamente a las variables categóricas, ofreciendo un resumen descriptivo específico que incluye el número de valores no nulos, la cantidad de categorías distintas y la categoría más frecuente junto con su frecuencia, lo que complementa de manera el análisis descriptivo general realizado previamente.

Se observa que variables que aparecen variables numericas, lo que no corresponde con esta tabla, es algo que ya ha sido comentado anteriormente y que sera corregido en la parte de limpiza y transformacion

Se observa que aparecen algunas variables que deberían ser numéricas, lo que indica una asignación inadecuada del tipo de dato. Este aspecto ya ha sido señalado previamente y se corregirá durante la fase de limpieza y transformación, ajustando los formatos para que la tabla descriptiva represente adecuadamente la información.

A continuación se procede a analizar cada variable categórica determinando el número de valores únicos presentes en cada columna y mostrando su distribución de frecuencias, con el objetivo de describir su composición y variabilidad.

In [18]:
for col in columns_cate:
    
    print(f'La columna {col} tiene un total de {df_bank[col].nunique()} valores unicos')

    display(df_bank[col].value_counts().head(12))

La columna job tiene un total de 11 valores unicos


job
admin.           10873
blue-collar       9654
technician        7026
services          4162
management        3050
retired           1790
entrepreneur      1522
self-employed     1489
housemaid         1123
unemployed        1063
student            903
Name: count, dtype: int64

La columna marital tiene un total de 3 valores unicos


marital
MARRIED     25999
SINGLE      12105
DIVORCED     4811
Name: count, dtype: int64

La columna education tiene un total de 7 valores unicos


education
university.degree      12722
high.school             9925
basic.9y                6309
professional.course     5477
basic.4y                4356
basic.6y                2386
illiterate                18
Name: count, dtype: int64

La columna contact tiene un total de 2 valores unicos


contact
cellular     27396
telephone    15604
Name: count, dtype: int64

La columna poutcome tiene un total de 3 valores unicos


poutcome
NONEXISTENT    37103
FAILURE         4461
SUCCESS         1436
Name: count, dtype: int64

La columna cons.price.idx tiene un total de 26 valores unicos


cons.price.idx
93,994    7938
93,918    6937
92,893    5985
93,444    5349
94,465    4522
93,2      3731
93,075    2552
92,201     803
92,963     742
92,431     471
92,649     375
94,215     320
Name: count, dtype: int64

La columna cons.conf.idx tiene un total de 26 valores unicos


cons.conf.idx
-36,4    8020
-42,7    7004
-46,2    6057
-36,1    5408
-41,8    4568
-42      3782
-47,1    2581
-31,4     815
-40,8     748
-26,9     477
-30,1     379
-40,3     328
Name: count, dtype: int64

La columna euribor3m tiene un total de 309 valores unicos


euribor3m
4,857    2287
4,962    2124
4,963    2019
4,961    1594
4,964     964
4,856     961
1,405     954
4,864     871
4,965     866
4,96      836
4,968     788
4,959     763
Name: count, dtype: int64

La columna nr.employed tiene un total de 11 valores unicos


nr.employed
5228,1    16980
5099,1     8937
5191       8020
5195,8     3830
5076,2     1748
5017,5     1133
4991,6      812
5008,7      683
4963,6      665
5023,5      181
5176,3       11
Name: count, dtype: int64

La columna y tiene un total de 2 valores unicos


y
no     38156
yes     4844
Name: count, dtype: int64

La columna id_ tiene un total de 43000 valores unicos


id_
993bbbd6-4dbc-4a40-a408-f91f8462bee6    1
089b39d8-e4d0-461b-87d4-814d71e0e079    1
e9d37224-cb6f-4942-98d7-46672963d097    1
3f9f49b5-e410-4948-bf6e-f9244f04918b    1
9991fafb-4447-451a-8be2-b0df6098d13e    1
eca60b76-70b6-4077-80ba-bc52e8ebb0eb    1
d63ede72-0b6d-45b1-8872-385ac6897f65    1
5e3483e5-236d-437d-8351-541f9d09b9dd    1
9ebb7576-92de-4949-b2e3-e56890740112    1
85e7d06a-50c4-4b82-bcb7-45525c7f7f6a    1
071e39a6-519d-4286-8001-88cc9b237e01    1
4c72e852-475d-4fb7-81d6-a7dd467cb4f0    1
Name: count, dtype: int64

**Observaciones:** 

`job`: La variable laboral presenta 11 categorías distintas, siendo admin. la más frecuente, con 10.873 registros. Esto indica una fuerte concentración de clientes en perfiles administrativos frente a otros tipos de ocupación.

`marital`: El estado civil se agrupa en solo 3 categorías, con una clara predominancia de clientes casados (MARRIED), que representan 25.999 registros. Esto sugiere que la mayoría de la base de clientes mantiene una situación familiar estable.

`education`: La formación académica se distribuye en 7 niveles, destacando **university.degree** como la categoría más habitual con 12.722 casos. La presencia significativa de estudios universitarios puede influir en el perfil financiero y en la toma de decisiones de los clientes.

`contact`: El canal de contacto se divide en 2 modalidades, con **cellular** como opción dominante con 27.396 registros. Esto refleja una preferencia clara por el uso del teléfono móvil frente al fijo en las campañas realizadas.

`poutcome`: El resultado de campañas previas se clasifica en 3 categorías, donde **NONEXISTENT** agrupa 37.103 registros. Esto indica que, en la mayoría de los casos, no hubo una campaña anterior relevante para el cliente.

`cons.price.idx`: El índice de precios al consumo presenta 26 valores distintos, con el valor 93,994 como el más frecuente con 7.938 casos. Esta variable recoge diferentes contextos de nivel de precios bajo los cuales se desarrollaron las campañas.

`cons.conf.idx`: La confianza del consumidor también muestra 26 valores posibles, predominando el valor -36,4 con 8.020 apariciones. Refleja distintos entornos de percepción económica por parte de los consumidores a lo largo del tiempo.

`euribor3m`: La tasa euribor a tres meses presenta una elevada diversidad de 309 valores únicos y se concentra especialmente en el nivel 4,857 con 2.287 registros. Esto indica que las campañas cubren un amplio abanico de escenarios de tipos de interés.

`nr.employed`: Esta variable presenta únicamente 11 valores distintos, concentrándose principalmente en el valor 5228, que registra 16.980 observaciones. Dado que se trata de un identificador y no de una magnitud explicativa del comportamiento del cliente, no aporta información relevante para el análisis y no resulta útil para la identificación de patrones asociados a la contratación del producto.

`y`: La variable objetivo presenta 2 categorías, con el valor **no** claramente dominante con 38.156 registros. Esto evidencia un desbalance importante entre clientes que no suscriben el depósito y quienes sí lo hacen.

`id_`: La variable id_ contiene 43.000 valores únicos, con una frecuencia de 1 por identificador. Actúa exclusivamente como clave única de registro y no aporta información explicativa para el análisis.

# Carga de datos customer-details.xlsx

Se cargan todas las hojas del fichero ``customer-details.xlsx`` en un diccionario de DataFrames mediante ``sheet_name=None`` y con `index_col=0` se impide que, durante la carga del archivo se genere la columna `Unnamed: 0`, al interpretar la primera columna como índice en lugar de incorporarla como variable adicional.

A continuación, se concatenan todos los DataFrames con ``pd.concat``.

El resultado es ``df_union``, un único DataFrame que integra la información de todas las hojas, con el índice reenumerado.

In [19]:
df_customer = pd.read_excel('../data/1.raw/customer-details.xlsx', sheet_name= None, index_col=0)

df_union = pd.concat(df_customer.values(), ignore_index=True)

Se realiza una consulta a `df_union.columns` con el objetivo de identificar las variables disponibles en el conjunto unificado. A continuación, se llevará a cabo una descripción detallada de cada columna para contextualizar su contenido y su posible utilidad en el análisis posterior.

In [20]:
df_union.columns

Index(['Income', 'Kidhome', 'Teenhome', 'Dt_Customer', 'NumWebVisitsMonth',
       'ID'],
      dtype='object')

# Columnas de datos

●	``Income``: Representa el ingreso anual del cliente en términos monetarios.

●	``Kidhome``: Indica el número de niños en el hogar del cliente.

●	``Teenhome``: Indica el número de adolescentes en el hogar del cliente.

●	``Dt_Customer``: Representa la fecha en que el cliente se convirtió en cliente de la empresa.

●	``NumWebVisitsMonth``: Indica la cantidad de visitas mensuales del cliente al sitio web de la empresa.

●	``ID``: Identificador único del cliente.

# Análisis preliminar

Se visualizan las primeras filas para comprobar que la base de datos se ha cargado correctamente.

In [21]:
df_union.head()

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097
2,147233,1,1,2012-02-02,5,3f9f49b5-e410-4948-bf6e-f9244f04918b
3,121393,1,2,2012-12-21,29,9991fafb-4447-451a-8be2-b0df6098d13e
4,63164,1,2,2012-06-20,20,eca60b76-70b6-4077-80ba-bc52e8ebb0eb


### Vemos las ultimas filas

Se visualizan las ultimas filas para comprobar que la base de datos se ha cargado correctamente.

In [22]:
df_union.tail()

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID
43165,156980,1,2,2014-05-17,7,5f432048-d515-4bb5-9c94-62db451f88d4
43166,139820,0,0,2014-09-29,1,993bbbd6-4dbc-4a40-a408-f91f8462bee6
43167,78470,2,2,2014-10-28,12,d6271666-319d-42c8-a741-cb22bf2c2093
43168,144218,0,1,2014-07-01,9,f67fbfa8-6573-414d-a805-b26a2f1b1ceb
43169,115155,0,2,2014-12-25,7,9727bc06-c11a-461a-a5bb-3d210467cc2a


## Observamos el número de filas y columnas

In [23]:
print(f"El número de filas es {df_union.shape[0]} y el número de columnas es {df_union.shape[1]} ")

El número de filas es 43170 y el número de columnas es 6 


## Examinamos los tipos de columnas categóricas y numéricas que tenemos

In [24]:
df_union.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 43170 entries, 0 to 43169
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   Income             43170 non-null  int64         
 1   Kidhome            43170 non-null  int64         
 2   Teenhome           43170 non-null  int64         
 3   Dt_Customer        43170 non-null  datetime64[ns]
 4   NumWebVisitsMonth  43170 non-null  int64         
 5   ID                 43170 non-null  object        
dtypes: datetime64[ns](1), int64(4), object(1)
memory usage: 2.0+ MB


En este caso se observa que no es preciso efectuar ninguna modificacion, puesto que las columnas ya presentan los tipos de datos correctos y coherentes con su contenido.

## Análisis de fechas

En este caso no resulta necesario transformar la columna de fecha ``Dt_customer``, ya que el formato actual permite identificar directamente los años únicos presentes en el conjunto de datos y analizar adecuadamente el intervalo temporal correspondiente.

In [25]:
print(f"Los valores únicos de los años para la columna {'Dt_Customer'} son: {df_union['Dt_Customer'].dt.year.unique()}")

Los valores únicos de los años para la columna Dt_Customer son: [2012 2013 2014]


## Duplicados

Se verifica la presencia de duplicados en la base de datos.

In [26]:
df_union.duplicated().sum()

np.int64(0)

El resultado confirma que no hay filas duplicadas, por lo que no se requiere realizar ninguna eliminación.

## Valores nulos

Se evalúa el número total de valores nulos presentes en el conjunto de datos.

In [27]:
nulos_union = df_union.isna().sum().sort_values(ascending=False)

nulos_union

Income               0
Kidhome              0
Teenhome             0
Dt_Customer          0
NumWebVisitsMonth    0
ID                   0
dtype: int64

El análisis confirma que no existe ningún valor nulo en las columnas, por lo que no resulta necesario calcular el porcentaje de datos incompletos.

# Análisis de la estructura y composición de las variables

En esta sección se examina cómo se comportan las distintas variables del conjunto de datos, describiendo sus patrones y propiedades más relevantes.

## Variables númericas

In [28]:
columns_num_union = df_union.select_dtypes(include='number').columns

columns_num_union

Index(['Income', 'Kidhome', 'Teenhome', 'NumWebVisitsMonth'], dtype='object')

El conjunto de datos incluye varias variables numéricas que describen aspectos económicos y características del hogar, así como patrones de actividad del cliente, tales como ingresos, número de niños y adolescentes en el domicilio y frecuencia de visitas web mensuales.

In [29]:
df_union.describe(include='number').round(2).T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Income,43170.0,93227.39,50498.18,5841.0,49608.0,93009.5,136740.5,180802.0
Kidhome,43170.0,1.0,0.82,0.0,0.0,1.0,2.0,2.0
Teenhome,43170.0,1.0,0.82,0.0,0.0,1.0,2.0,2.0
NumWebVisitsMonth,43170.0,16.59,9.24,1.0,9.0,17.0,25.0,32.0


En esta tabla se recoge un resumen estadístico de las variables numéricas del conjunto ``df_union``, donde se muestra el número de valores disponibles. En este caso se observar que todas las columnas tienen el mismo número de registros, lo que indica la ausencia de datos incompletos.

Asimismo, comprende el valor de la media, los valores mínimo y máximo de cada columna, además de incluirse la desviación estandar como medidas de dispersión.

Finalmente, se incorporan los percentiles 25 %, 50 % (mediana) y 75 %, que permiten describir la distribución central de los datos y analizar su variabilidad con mayor precisión.

In [30]:
for col in columns_num_union:
    
    print(f'La columna {col} tiene un total de {df_union[col].nunique()} valores unicos')

    display(df_union[col].value_counts().head(12))

La columna Income tiene un total de 38310 valores unicos


Income
70422     5
40655     5
19675     4
124579    4
58209     4
170766    4
16533     4
128811    4
59272     4
44944     4
43351     4
16284     4
Name: count, dtype: int64

La columna Kidhome tiene un total de 3 valores unicos


Kidhome
2    14475
1    14425
0    14270
Name: count, dtype: int64

La columna Teenhome tiene un total de 3 valores unicos


Teenhome
1    14425
0    14402
2    14343
Name: count, dtype: int64

La columna NumWebVisitsMonth tiene un total de 32 valores unicos


NumWebVisitsMonth
14    1428
32    1413
3     1412
12    1397
31    1388
21    1387
29    1386
23    1370
13    1366
27    1364
20    1363
4     1362
Name: count, dtype: int64

**Observaciones:** 

`Income`: Los ingresos presentan una media cercana a 93.227, con un rango amplio entre 5.841 y 180.802 y una desviación estándar elevada, lo que refleja una fuerte dispersión y una notable heterogeneidad económica entre los clientes.

`Kidhome`: El número de niños en el hogar oscila entre 0 y 2, con una media de 1 y una desviación estándar moderada cercana a 1. Esto sugiere que la mayoría de los hogares tiene uno o ningún niño, con menos frecuencia de valores extremos dentro del rango permitido.

`Teenhome`: En este caso, el número de adolescentes por hogar también se sitúa entre 0 y 2, con una media de 1 y una desviación estándar de 0,82. Esta distribución sugiere una estructura familiar relativamente homogénea en cuanto a la presencia de hijos adolescentes, sin una dispersión significativa entre los registros.

`NumWebVisitsMonth`: El número de visitas web mensuales presenta una media de 16,6, con valores que van de 1 a 32 y una desviación estándar de 9,24, lo que indica una actividad online muy variable entre clientes, desde usuarios poco activos hasta otros con frecuencia de visita elevada.

In [31]:
df_union.median(numeric_only=True).round(2)

Income               93009.5
Kidhome                  1.0
Teenhome                 1.0
NumWebVisitsMonth       17.0
dtype: float64

Se observa como la mediana permite resumir la tendencia central de atributos cuantitativos, ofreciendo una medida robusta frente a valores extremos y evitando incluir columnas categóricas o no numéricas en el cálculo.

## Variables categoricas


In [32]:
columns_cate_union = df_union.select_dtypes(include= ['category', 'object']).columns

columns_cate_union

Index(['ID'], dtype='object')

En este caso la única variable categórica es el identificador **ID**, empleado para distinguir de forma inequívoca cada registro y garantizar una correcta trazabilidad dentro del conjunto de datos.

In [33]:
df_union.describe( include=['category', 'object']).T

Unnamed: 0,count,unique,top,freq
ID,43170,43170,9727bc06-c11a-461a-a5bb-3d210467cc2a,1


Se observa como la aplicación del método ``describe`` a la variable categórica **ID** proporciona un resumen básico que incluye el número total de registros, el recuento de identificadores únicos y el identificador más frecuente junto con su frecuencia, lo que permite verificar su unicidad y consistencia dentro del conjunto de datos.

A continuación se examina la variable categórica, identificando la cantidad de valores únicos y verificando su distribución, con el propósito de evaluar su estructura y su papel dentro del conjunto de datos.

In [34]:
for col in columns_cate_union:
    
    print(f'La columna {col} tiene un total de {df_union[col].nunique()} valores unicos')

    display(df_union[col].value_counts())

La columna ID tiene un total de 43170 valores unicos


ID
9727bc06-c11a-461a-a5bb-3d210467cc2a    1
089b39d8-e4d0-461b-87d4-814d71e0e079    1
5006b75e-18bb-46e9-ae1a-89f7eb79cc8a    1
e554d2ad-6c83-4603-93d4-fc596b807eff    1
3959015a-9713-4877-9a43-740e34c29eaf    1
                                       ..
5e3483e5-236d-437d-8351-541f9d09b9dd    1
d63ede72-0b6d-45b1-8872-385ac6897f65    1
eca60b76-70b6-4077-80ba-bc52e8ebb0eb    1
9991fafb-4447-451a-8be2-b0df6098d13e    1
3f9f49b5-e410-4948-bf6e-f9244f04918b    1
Name: count, Length: 43170, dtype: int64

**Observaciones:** 

`ID`: La columna ID contiene 43.170 valores únicos, cada uno con frecuencia igual a 1, lo que confirma que actúa exclusivamente como identificador individual de cada registro. Al no aportar variabilidad ni información relevante para el comportamiento del cliente, su utilidad se limita a la referencia interna dentro del conjunto de datos.