
# **Prueba  ML Analyst - Notebook de preprocesamiento** 



# Contenido 
1.   Definicion del problema a resolver
2.   Limpieza y calidad de datos general
3.   Revisando el balance de los datos
4.   Perfilado de datos
5.   Observaciones sobre el perfilado
6.   Revisando las variables  **emp.var.rate, euribor3m y nr.employed**
7.   Limpieza de otras variables
8.   Explorando columnas categoricas
9.   Explorando valores faltantes en cada columna
10.  Eliminando duplicados.




#  <center>**Campaña Bancaria - Preprocesamiento de datos**</center>
## Definición del problema a resolver:

El conjunto de datos contiene información sobre campañas de marketing que se realizaron a través de llamadas telefónicas de una institución bancaria a sus clientes. El objetivo de estas campañas es incitar a sus clientes a suscribirse a un producto financiero específico del banco (depósito a plazo). Después de realizar cada llamada, el cliente debía informar a la institución sobre su decisión de suscribirse al producto(indicando una campaña exitosa) o no (campaña no exitosa).
El resultado final de esta encuesta será un resultado binario que indicará si el cliente se suscribió al producto o no.

El conjunto de datos tiene 41188 filas (instancias de llamadas a clientes) y 21 columnas (variables) que describen ciertos aspectos de la llamada. Tenga en cuenta que hay casos en los que el mismo cliente fue contactado varias veces.


**Dadas las caracteristicas del problema en cuestion, estamos frente a un problema de aprendizaje supervisado con variable objetivo categorica binaria. El modelo desarrollado será un modelo de clasificación.**


Feature name |Type| Number of Non null|Description and values
---:|:----------:|:---:|:---
suscribed (Target) |Object |41185| Indica si el cliente se sucribió al producto o no
job| object | 41188|tipo de trabajo (por ejemplo: administrador, técnico, desempleado, etc.)
marital| Object |41188|estado civil (&#39;casado&#39;, &#39;soltero&#39;,&#39;divorciado&#39;, &#39;desconocido&#39;)
education| object| 41188|nivel de educación (&#39;básico.4 años&#39;, &#39;bachillerato&#39;, &#39;básico.6 años&#39;, &#39;básico.9 años&#39;, &#39;curso.profesional&#39;, &#39;desconocido&#39;,&#39;título universitario&#39;, &#39;analfabeto&#39;)
default| object| 41188 |default: si el cliente tiene crédito en default (&#39;no&#39;, &#39;desconocido&#39;, &#39;si&#39;)
housing| Object | 41188 |si el cliente tiene un préstamo de vivienda (&#39;no&#39;, &#39;desconocido&#39;, &#39;sí&#39;)|
loan| Object | 41188 |préstamo: si el cliente tiene un préstamo personal? (&#39;no&#39;, &#39;desconocido&#39;, &#39;sí&#39;)|
contact| Object | 41188 |tipo de comunicación (&#39;teléfono&#39;,&#39;celular&#39;)|
month | Object | 41188 |mes del último contacto|
day_of_week| Object | 41188 |dia del ultimo contacto|
duration| float64 | 41188 |duracion de la llamada en segundos|
campaign| float64 | 41188|número de contactos realizados durante esta campaña y para este cliente|
pdays| float64 | 41188 |número de días transcurridos desde la última vez que se contactó al cliente de una campaña anterior|
previous| float64| 41188 |número de contactos realizados antes de esta campaña y para este cliente|
poutcome | Object | 41188 |resultado de la campaña de marketing anterior (&#39;inexistente&#39;, &#39;fracaso&#39;, &#39;éxito&#39;)|
emp.var.rate| Object | 41188 |tasa de variación del empleo - indicador trimestral|
cons.price.idx| float64 |41188|Indice de precios al consumidor indicador mensual|
cons.conf.idx| float64 |41188 |índice de confianza del consumidor - indicador mensual|
euribor3m | Object | 41188 |tasa euribor 3 meses - indicador diario|
nr.employed| Object | 41188 |número de empleados - indicador trimestral|


Importando las librerías necesarias


In [None]:
#Importando las librerias necesarias
import matplotlib.pyplot as plt
import plotly.express as px
import seaborn as sb
from sklearn import metrics
import seaborn as sns
import numpy as np
from matplotlib import cm
import pandas as pd
import numpy as np
from pandas_profiling import ProfileReport
from sklearn.impute import SimpleImputer


# Cargando los datos

In [2]:
#Leyendo el dataset,
#nota: poner Bank_Campaign.xlsx en el directorio data/raw
df=pd.read_excel("../data/raw/Bank_Campaign.xlsx")

In [3]:
df.head()

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,...,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,subscribed
0,56,housemaid,married,basic.4y,no,no,no,telephone,may,mon,...,1,999,0,nonexistent,2022-01-01 00:00:00,93994.0,-36.4,4857,5191,no
1,57,services,married,high.school,unknown,no,no,telephone,may,mon,...,1,999,0,nonexistent,2022-01-01 00:00:00,93994.0,-36.4,4857,5191,no
2,37,services,married,high.school,no,yes,no,telephone,may,mon,...,1,999,0,nonexistent,2022-01-01 00:00:00,93994.0,-36.4,4857,5191,no
3,40,admin.,married,basic.6y,no,no,no,telephone,may,mon,...,1,999,0,nonexistent,2022-01-01 00:00:00,93994.0,-36.4,4857,5191,no
4,56,services,married,high.school,no,no,yes,telephone,may,mon,...,1,999,0,nonexistent,2022-01-01 00:00:00,93994.0,-36.4,4857,5191,no


In [4]:
##Explorando las columnas
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41188 entries, 0 to 41187
Data columns (total 21 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   age             41188 non-null  int64  
 1   job             41188 non-null  object 
 2   marital         41188 non-null  object 
 3   education       41188 non-null  object 
 4   default         41188 non-null  object 
 5   housing         41188 non-null  object 
 6   loan            41188 non-null  object 
 7   contact         41188 non-null  object 
 8   month           41188 non-null  object 
 9   day_of_week     41188 non-null  object 
 10  duration        41188 non-null  int64  
 11  campaign        41188 non-null  int64  
 12  pdays           41188 non-null  int64  
 13  previous        41188 non-null  int64  
 14  poutcome        41188 non-null  object 
 15  emp.var.rate    41188 non-null  object 
 16  cons.price.idx  41188 non-null  float64
 17  cons.conf.idx   41188 non-null 

Observamos que la base de datos tiene 21 columnas todas ellas en principio con 41188 registros excepto la variable objetivo (suscribed) la cual contiene 41185 registros teniendo 3 ejemplos sin etiquetar los cuales seran el objetivo del proyecto. Se diseñaran varios modelos para cumplir con la tarea de asignar la categoria correspondiente a los ejemplos no etiquetados para determinar si los clientes se suscriben o no a la campaña del banco.

## Limpieza y calidad de datos general


In [5]:
"""
Revisando cantidad de datos nulos por 
columna observamos que en principio solo hay 3 nulos
en la columna suscribed
""" 
df.isnull().sum() 


age               0
job               0
marital           0
education         0
default           0
housing           0
loan              0
contact           0
month             0
day_of_week       0
duration          0
campaign          0
pdays             0
previous          0
poutcome          0
emp.var.rate      0
cons.price.idx    0
cons.conf.idx     0
euribor3m         0
nr.employed       0
subscribed        3
dtype: int64

In [6]:
"""Revisando duplicados observamos que hay 12 filas duplicadas, 
revisaremos su contenido mas adelante"""
df.duplicated().value_counts() 


False    41176
True        12
dtype: int64

In [7]:
"""
Revisando las filas duplicadas observamos que tenemos 12 filas duplicadas en principio.
Dado que es un porcentaje muy bajo de los datos podemos optar por eliminarlas

"""
df[df.duplicated()]

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,...,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,subscribed
1266,39,blue-collar,married,basic.6y,no,no,no,telephone,may,thu,...,1,999,0,nonexistent,2022-01-01 00:00:00,93994.0,-36.4,4855,5191,no
12261,36,retired,married,unknown,no,no,no,telephone,jul,thu,...,1,999,0,nonexistent,2022-04-01 00:00:00,93918.0,-42.7,4966,5228-01-01 00:00:00,no
14234,27,technician,single,professional.course,no,no,no,cellular,jul,mon,...,2,999,0,nonexistent,2022-04-01 00:00:00,93918.0,-42.7,4962,5228-01-01 00:00:00,no
16956,47,technician,divorced,high.school,no,yes,no,cellular,jul,thu,...,3,999,0,nonexistent,2022-04-01 00:00:00,93918.0,-42.7,4962,5228-01-01 00:00:00,no
18465,32,technician,single,professional.course,no,yes,no,cellular,jul,thu,...,1,999,0,nonexistent,2022-04-01 00:00:00,93918.0,-42.7,4968,5228-01-01 00:00:00,no
20216,55,services,married,high.school,unknown,no,no,cellular,aug,mon,...,1,999,0,nonexistent,2022-04-01 00:00:00,93444.0,-36.1,4965,5228-01-01 00:00:00,no
20534,41,technician,married,professional.course,no,yes,no,cellular,aug,tue,...,1,999,0,nonexistent,2022-04-01 00:00:00,93444.0,-36.1,4966,5228-01-01 00:00:00,no
25217,39,admin.,married,university.degree,no,no,no,cellular,nov,tue,...,2,999,0,nonexistent,-0.1,93.2,-42.0,4153,5195-08-01 00:00:00,no
28477,24,services,single,high.school,no,yes,no,cellular,apr,tue,...,1,999,0,nonexistent,-1.8,93075.0,-47.1,1423,5099-01-01 00:00:00,no
32516,35,admin.,married,university.degree,no,yes,no,cellular,may,fri,...,4,999,0,nonexistent,-1.8,92893.0,-46.2,1313,5099-01-01 00:00:00,no


## Revisando balance de los datos


In [8]:
"""Se observa que el dataset esta desbalanceado contando con un 88.7% de las instancias
clasificadas como "no" y tan solo un 11.26 % de las instancias clasificadas como "si" 
con referencia a si el cliente se suscribió o no al producto de la campaña
"""

df['subscribed'].value_counts()/df['subscribed'].value_counts().sum()*100

no     88.73619
yes    11.26381
Name: subscribed, dtype: float64

## Perfilado de datos
Se usa la herramienta pandas profiling para hacer un primer perfilado de datos, observar sus distribuciones, etc...

In [9]:
"""
Realizando perfilado de datos con pandas profiling
"""

#profile = ProfileReport(df, title='Bank_campaign', html={'style':{'full_width':True}})
#profile.to_notebook_iframe()

'\nRealizando perfilado de datos con pandas profiling\n'

## Observaciones sobre el perfilado:
1.**Observamos que las columnas emp.var.rate , euribor3m y nr.employed** tienen problemas en la definicion de los tipos de dato y en su contenido, deberemos revisar mas a fondo estas 3 variables mas adelante.

2. **Observamos que el dataset esta desbalanceado con respecto a la columna objetivo que es suscribed**  debido a que el 88.7% de los ejemplos estan clasificados como " no " lo que indica que  estos clientes no se suscribieron al producto y tan solo el 11.3% de las observaciones estan clasificadas como "si" indicando que si se suscribieron al pŕoducto. Esto sera relevante a la hora de elegir un modelo ya que es importante elegir un algoritmo que sea adecuado para este tipo de dataset desbalanceados.

3. **Observamos que la variable cons.price.idx contiene algunos valores valores de 93.2 y la mayoria de valores de 90000 en adelante.** Esto lleva a pensar que tal vez no se reconocen la coma en los valores superiores a 90000 ya que en realidad no es un 90000 sino un 90.00.
 Un motivo para esto es que esta variable es un indice de precios al consumo y estos indices solo tienen sentido en un rango de 0-100 aproximadamente pudiendo ser en ocasiones algo mayor pero sin exceder los 200 o 300 tal y como lo indica el  el dane :
https://www.dane.gov.co/index.php/estadisticas-por-tema/precios-y-costos/indice-de-precios-al-consumidor-ipc


Al observar los datos del dane del indice de precios al consumidor, nos damos cuenta de que estos valores deben ir entre 0-100 o un poco mas dado que el indice en el año base sobre el que se calculan los cambios en los precios corresponde a 100 y con referencia a ese 100 se calcula el crecimiento de los precios por lo cual nunca se aleja mucho de 100 y jamas sube a rangos de miles, en situaciones economicas  que no sean hiperinflacionarias, como es el caso de la mayoria de paises del mundo salvo unos pocos.

**Para solucionar este problema se optara por dividir entre 1000 los valores que esten expresados en decenas de miles para que asi el indice de precios al consumo quede expresado en las unidades en las que tiene sentido.**

## Revisando las variables  **emp.var.rate, euribor3m y nr.employed**



In [10]:
"""Observamos que la variable emp.var.rate contiene datos tipo datetime 
combinados con datos tipo flotante lo
cual es un problema ya que en esta columna deberia ir exclusivamente una tasa
de variacion del empleo trimestral, se corregirá este error 
"""

df['emp.var.rate'].value_counts()

2022-04-01 00:00:00    16234
-1.8                    9184
2022-01-01 00:00:00     7763
-0.1                    3683
-2.9                    1663
-3.4                    1071
-1.7                     773
-1.1                     635
-3                       172
-0.2                      10
Name: emp.var.rate, dtype: int64

## Analisis de la variable euribor3m
Euribor es un acrónimo para Euro Interbank Offered Rate o “tipo europeo de oferta interbancaria” Y representa el tipo medio de interés al que se prestan euros entre sí un gran número de bancos europeos. Para la determinación de los tipos Euribor se elimina el 15% más alto y el 15% más bajo de los tipos de interés recolectados. Todos los días laborales a las 11:00 CET se determinan los tipos de interés del Euribor y se transmiten a todos los interesados y a la prensa.
De esta manera , observando la gráfica del indicador diario euribor3m observamos que los valores diarios son expresados en porcentajes que están alrededor del 0% (incluyendo valores negativos) y a dia de hoy (22 de noviembre de 2022) se observan valores en un rango de al rededor del 1,7%.
Podemos concluir entonces que los valores válidos para la tasa euribor3m deben oscilar entre -1% y 2% aproximadamente o tal vez mas  pero de cualquier forma nunca llegando a valores porcentuales mucho más altos.


Podrían existir varias aproximaciones y supuestos que se podrían hacer para solucionar los problemas de esta columna en la que hay varios tipos de datos mezclados, y datos en rangos que carecen de sentido. Para este ejercicio, sin embargo, se opta por eliminar esta columna y asumir que esta variable no se conoce. Esta alternativa podría no ser la mejor dado que es posible que esta variable sea importante, sin embargo por motivos de agilidad en este caso se  toma la decision de eliminarla.

Fuente : https://www.euribor-rates.eu/es/tipos-euribor-actualmente/2/euribor-valor-3-meses/


In [11]:
"""
Observamos que la variable euribor3m contiene datos tipo datetime 
combinados con datos tipo flotante lo
cual es un problema ya que en esta columna debería ir exclusivamente la tasa
euribor a 3 meses, se corregirá este error
"""
df['euribor3m'].unique()


array([4857, 4856, 4855, 4859, '4.86', 4858, 4864, 4865, 4866, 4967, 4961,
       4959, 4958, '4.96', 4962, 4955, 4947, 4956, 4966, 4963, 4957, 4968,
       '4.97', 4965, 4964, 5045, 5, 4936, 4921, 4918, 4912, 4827, 4794,
       '4.76', 4733, datetime.datetime(2022, 7, 4, 0, 0), 4663, 4592,
       4474, 4406, 4343, 4286, 4245, 4223, 4191, 4153,
       datetime.datetime(2022, 12, 4, 0, 0), 4076, 4021, 3901, 3879, 3853,
       3816, 3743, 3669, 3563, 3488, 3428, 3329, 3282, 3053, 1811, 1799,
       1778, 1757, 1726, 1703, 1687, 1663, '1.65', '1.64', 1629, 1614,
       1602, 1584, 1574, '1.56', 1556, 1548, 1538, 1531, '1.52', '1.51',
       1498, 1483, 1479, 1466, 1453, 1445, 1435, 1423, 1415, '1.41', 1405,
       1406, datetime.datetime(2022, 4, 1, 0, 0), 1392, 1384, 1372, 1365,
       1354, 1344, 1334, 1327, 1313, 1299, 1291, 1281, 1266, '1.25', 1244,
       1259, 1264, '1.27', 1262, '1.26', 1268, 1286, 1252, 1235, 1224,
       1215, 1206, 1099, 1085, 1072, 1059, 1048, 1044, 1029, 1018,

In [12]:
"""
Observamos que la variable nr.employed contiene datos tipo datetime 
combinados con datos tipo flotante lo
cual es un problema ya que en esta columna debería ir exclusivamente el
indicador trimestral del numero de empleados, se corregirá este error
"""

df['nr.employed'].value_counts()

5228-01-01 00:00:00    16234
5099-01-01 00:00:00     8534
5191                    7763
5195-08-01 00:00:00     3683
5076-02-01 00:00:00     1663
5017-05-01 00:00:00     1071
4991-06-01 00:00:00      773
5008-07-01 00:00:00      650
4963-06-01 00:00:00      635
5023-05-01 00:00:00      172
5176-03-01 00:00:00       10
Name: nr.employed, dtype: int64

 Una vez encontrados los problemas de calidad de datos, se opta en este caso por arreglar en excel los errores en las columnas emp.var.rate ,nr.employed y euribor3m debido a que se puede hacer de una manera ágil y efectiva con las herramientas que excel proporciona para manipular las fechas y asi proseguir el análisis con los datos en el formato adecuado que requieren los modelos.

**En los archivos adjuntos se encontrará el archivo Bank_Campaign_2.xlsx en el cual se han corregido los errores en las 2 columnas anteriormente mencionadas, el resto de preprocesamiento se hará directamente en python**




In [13]:
"""Cargando Bank_campaign_2, que es un dataset con las variables emp.var.rate y 
nr-employed ajustadas a los tipos de datos
que se requieren, y   solucionados los errores que las mostraban como fechas.
NOTA: Se asume que  al mostrar 2022/04/01 como 1.4, el ultimo digito de la fecha es la parte
entera y el segundo la parte decimal, de tal manera que 2022-01-01 correspondería a 
1.1 y asi sucesivamente...
"""
df=pd.read_excel("../data/raw/Bank_Campaign_2.xlsx")

In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41188 entries, 0 to 41187
Data columns (total 20 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   age             41188 non-null  int64  
 1   job             41188 non-null  object 
 2   marital         41188 non-null  object 
 3   education       41188 non-null  object 
 4   default         41188 non-null  object 
 5   housing         41188 non-null  object 
 6   loan            41188 non-null  object 
 7   contact         41188 non-null  object 
 8   month           41188 non-null  object 
 9   day_of_week     41188 non-null  object 
 10  duration        41188 non-null  int64  
 11  campaign        41188 non-null  int64  
 12  pdays           41188 non-null  int64  
 13  previous        41188 non-null  int64  
 14  poutcome        41188 non-null  object 
 15  emp.var.rate    41188 non-null  float64
 16  cons.price.idx  41188 non-null  float64
 17  cons.conf.idx   41188 non-null 

In [15]:
df.describe()

Unnamed: 0,age,duration,campaign,pdays,previous,emp.var.rate,cons.price.idx,cons.conf.idx,nr.employed
count,41188.0,41188.0,41188.0,41188.0,41188.0,41188.0,41188.0,41188.0,41188.0
mean,40.02406,258.28501,2.567593,962.475454,0.172963,0.081886,85401.579955,-40.5026,5166.849446
std,10.42125,259.279249,2.770014,186.910907,0.494901,1.57096,26471.506796,4.628198,72.328375
min,17.0,0.0,1.0,0.0,0.0,-3.4,93.2,-50.8,4963.0
25%,32.0,102.0,1.0,999.0,0.0,-1.8,92893.0,-42.7,5099.0
50%,38.0,180.0,2.0,999.0,0.0,1.1,93749.0,-41.8,5191.0
75%,47.0,319.0,3.0,999.0,0.0,1.4,93994.0,-36.4,5228.0
max,98.0,4918.0,56.0,999.0,7.0,1.4,94767.0,-26.9,5228.0


## Limpieza de otras variables 

In [16]:
"""Realizando transformacion necesaria a la columna cons.price.idx 
para que el indice de precios al consumidor quede expresado en unidades
que tienen sentido segun las estadisticas oficiales del DANE
"""

df['cons.price.idx'].value_counts()


93994.0    7763
93918.0    6685
92893.0    5794
93444.0    5175
94465.0    4374
93.2       3616
93075.0    2458
92201.0     770
92963.0     715
92431.0     447
92649.0     357
94215.0     311
94199.0     303
92843.0     282
92379.0     267
93369.0     264
94027.0     233
94055.0     229
93876.0     212
94601.0     204
92469.0     178
93749.0     174
92713.0     172
94767.0     128
93798.0      67
92756.0      10
Name: cons.price.idx, dtype: int64

In [17]:
"""Dividiendo los valores mayores a 90000 entre 1000 para que quede en una escala en la que tiene sentido
el valor del indice de precios al consumidor el cual debe oscilar entre 0-100 o un poco mas
sin exceder nunca las centenas segun indica el metodo
de calculo que emplea el Departamento administrativo nacional de estadistica."""
df["cons.price.idx"].where(df["cons.price.idx"]<100,df["cons.price.idx"]/1000,inplace=True) 

In [18]:
df['cons.price.idx']


0        93.994
1        93.994
2        93.994
3        93.994
4        93.994
          ...  
41183    94.767
41184    94.767
41185    94.767
41186    94.767
41187    94.767
Name: cons.price.idx, Length: 41188, dtype: float64

In [19]:
"""Observamos que  los valores de 
cons.price.idx ahora se encuentran en un rango que tiene sentido para 
un indice de precios al consumidor"""
df.describe() 


Unnamed: 0,age,duration,campaign,pdays,previous,emp.var.rate,cons.price.idx,cons.conf.idx,nr.employed
count,41188.0,41188.0,41188.0,41188.0,41188.0,41188.0,41188.0,41188.0,41188.0
mean,40.02406,258.28501,2.567593,962.475454,0.172963,0.081886,93.575664,-40.5026,5166.849446
std,10.42125,259.279249,2.770014,186.910907,0.494901,1.57096,0.57884,4.628198,72.328375
min,17.0,0.0,1.0,0.0,0.0,-3.4,92.201,-50.8,4963.0
25%,32.0,102.0,1.0,999.0,0.0,-1.8,93.075,-42.7,5099.0
50%,38.0,180.0,2.0,999.0,0.0,1.1,93.749,-41.8,5191.0
75%,47.0,319.0,3.0,999.0,0.0,1.4,93.994,-36.4,5228.0
max,98.0,4918.0,56.0,999.0,7.0,1.4,94.767,-26.9,5228.0


In [20]:
"""
Realizando perfilado de datos con pandas profiling
"""

#profile = ProfileReport(df, title='Bank_campaign', html={'style':{'full_width':True}})
#profile.to_notebook_iframe()

'\nRealizando perfilado de datos con pandas profiling\n'

## Explorando columnas categoricas

In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41188 entries, 0 to 41187
Data columns (total 20 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   age             41188 non-null  int64  
 1   job             41188 non-null  object 
 2   marital         41188 non-null  object 
 3   education       41188 non-null  object 
 4   default         41188 non-null  object 
 5   housing         41188 non-null  object 
 6   loan            41188 non-null  object 
 7   contact         41188 non-null  object 
 8   month           41188 non-null  object 
 9   day_of_week     41188 non-null  object 
 10  duration        41188 non-null  int64  
 11  campaign        41188 non-null  int64  
 12  pdays           41188 non-null  int64  
 13  previous        41188 non-null  int64  
 14  poutcome        41188 non-null  object 
 15  emp.var.rate    41188 non-null  float64
 16  cons.price.idx  41188 non-null  float64
 17  cons.conf.idx   41188 non-null 

In [22]:
df.columns

Index(['age', 'job', 'marital', 'education', 'default', 'housing', 'loan',
       'contact', 'month', 'day_of_week', 'duration', 'campaign', 'pdays',
       'previous', 'poutcome', 'emp.var.rate', 'cons.price.idx',
       'cons.conf.idx', 'nr.employed', 'subscribed'],
      dtype='object')

In [23]:
categorical_cols=df[['job','marital','education','default','housing','loan','contact','month','day_of_week','subscribed','poutcome']]
numerical_cols=df[['duration','campaign','pdays','previous','emp.var.rate','cons.price.idx','cons.conf.idx','nr.employed','age']]

## Explorando valores faltantes en cada columna

In [24]:
df['age'].value_counts(dropna=False)

31    1947
32    1846
33    1833
36    1780
35    1759
      ... 
89       2
91       2
94       1
87       1
95       1
Name: age, Length: 78, dtype: int64

In [25]:
df['job'].value_counts(dropna=False)

admin.           10422
blue-collar       9254
technician        6743
services          3969
management        2924
retired           1720
entrepreneur      1456
self-employed     1421
housemaid         1060
unemployed        1014
student            875
unknown            330
Name: job, dtype: int64

In [26]:
df['marital'].value_counts(dropna=False)

married     24928
single      11568
divorced     4612
unknown        80
Name: marital, dtype: int64

In [27]:
df['education'].value_counts(dropna=False)

university.degree      12168
high.school             9515
basic.9y                6045
professional.course     5243
basic.4y                4176
basic.6y                2292
unknown                 1731
illiterate                18
Name: education, dtype: int64

In [28]:
df['default'].value_counts(dropna=False)

no         32588
unknown     8597
yes            3
Name: default, dtype: int64

In [29]:
df['housing'].value_counts(dropna=False)

yes        21576
no         18622
unknown      990
Name: housing, dtype: int64

In [30]:
df['loan'].value_counts(dropna=False)

no         33950
yes         6248
unknown      990
Name: loan, dtype: int64

In [31]:
df['contact'].value_counts(dropna=False)

cellular     26144
telephone    15044
Name: contact, dtype: int64

In [32]:
df['month'].value_counts(dropna=False)

may    13769
jul     7174
aug     6178
jun     5318
nov     4101
apr     2632
oct      718
sep      570
mar      546
dec      182
Name: month, dtype: int64

In [33]:
df['day_of_week'].value_counts(dropna=False)

thu    8623
mon    8514
wed    8134
tue    8090
fri    7827
Name: day_of_week, dtype: int64

In [34]:
df['subscribed'].value_counts(dropna=False)

no     36546
yes     4639
NaN        3
Name: subscribed, dtype: int64

In [35]:
df['poutcome'].value_counts(dropna=False)

nonexistent    35563
failure         4252
success         1373
Name: poutcome, dtype: int64

In [36]:
df['previous'].value_counts(dropna=False)

0    35563
1     4561
2      754
3      216
4       70
5       18
6        5
7        1
Name: previous, dtype: int64

In [37]:
df['loan'].value_counts(dropna=False)

no         33950
yes         6248
unknown      990
Name: loan, dtype: int64

In [38]:
df['emp.var.rate'].value_counts(dropna=False)

 1.4    16234
-1.8     9184
 1.1     7763
-0.1     3683
-2.9     1663
-3.4     1071
-1.7      773
-1.1      635
-3.0      172
-0.2       10
Name: emp.var.rate, dtype: int64

In [39]:
df['cons.price.idx'].value_counts(dropna=False)

93.994    7763
93.918    6685
92.893    5794
93.444    5175
94.465    4374
93.200    3616
93.075    2458
92.201     770
92.963     715
92.431     447
92.649     357
94.215     311
94.199     303
92.843     282
92.379     267
93.369     264
94.027     233
94.055     229
93.876     212
94.601     204
92.469     178
93.749     174
92.713     172
94.767     128
93.798      67
92.756      10
Name: cons.price.idx, dtype: int64

In [40]:
df['cons.conf.idx'].value_counts(dropna=False)

-36.4    7763
-42.7    6685
-46.2    5794
-36.1    5175
-41.8    4374
-42.0    3616
-47.1    2458
-31.4     770
-40.8     715
-26.9     447
-30.1     357
-40.3     311
-37.5     303
-50.0     282
-29.8     267
-34.8     264
-38.3     233
-39.8     229
-40.0     212
-49.5     204
-33.6     178
-34.6     174
-33.0     172
-50.8     128
-40.4      67
-45.9      10
Name: cons.conf.idx, dtype: int64

In [41]:
df['nr.employed'].value_counts(dropna=False)

5228    16234
5099     8534
5191     7763
5195     3683
5076     1663
5017     1071
4991      773
5008      650
4963      635
5023      172
5176       10
Name: nr.employed, dtype: int64

In [42]:
df['pdays'].value_counts(dropna=False)

999    39673
3        439
6        412
4        118
9         64
2         61
7         60
12        58
10        52
5         46
13        36
11        28
1         26
15        24
14        20
8         18
0         15
16        11
17         8
18         7
22         3
19         3
21         2
25         1
26         1
27         1
20         1
Name: pdays, dtype: int64

In [43]:
df['contact'].value_counts(dropna=False)

cellular     26144
telephone    15044
Name: contact, dtype: int64

Se observa que varias variables tienen valores como **unknown y nonexistent** lo cual se podria considerar como un NA o un dato que es desconocido o faltante, hay que explorar estos datos faltantes en profundidad para ver que se puede hacer con ellos si eliminarlos o usar alguna tecnica de imputación.

In [44]:
## Reemplazando los unknown por NA para poder usar metodos de NA que vienen con pandas.
df.replace("unknown",np.nan,inplace=True)

In [45]:
df.isna().sum()

age                  0
job                330
marital             80
education         1731
default           8597
housing            990
loan               990
contact              0
month                0
day_of_week          0
duration             0
campaign             0
pdays                0
previous             0
poutcome             0
emp.var.rate         0
cons.price.idx       0
cons.conf.idx        0
nr.employed          0
subscribed           3
dtype: int64

In [46]:
print((df.isnull().sum()/len(df)*100).sort_values()) ##Porcentaje de na por cada columna

age                0.000000
cons.conf.idx      0.000000
cons.price.idx     0.000000
emp.var.rate       0.000000
poutcome           0.000000
previous           0.000000
pdays              0.000000
campaign           0.000000
duration           0.000000
day_of_week        0.000000
month              0.000000
contact            0.000000
nr.employed        0.000000
subscribed         0.007284
marital            0.194231
job                0.801204
loan               2.403613
housing            2.403613
education          4.202680
default           20.872584
dtype: float64


* **Se observa que la variable default tiene alrededor de un 20%** de datos faltantes,
sin embargo esta variable se considera relevante y borrarla podria ser
poco conveniente debido a que el hecho de que una
persona tenga un credito en default o no puede ser una variable predictora importante
a la hora de estimar si una persona se suscribirá a determinado servicio o no

* **Se observa que la variable poutcome que representa el resultado de la campaña de marketing anterior tiene un 86%** de datos faltantes o nonexistent, esto puede indicar que nunca antes se habia contactado a estas personas en una campaña previamente y que es el primer contacto con una campaña de marketing para ofrecer la subscripcion, esta variable podria ser relevante.


Para las variables que tienen un bajo porcentaje de valores nulos o faltantes  al rededor de entre un 0.1% y un 4% se optará por imputar con el metodo de la moda dada la poca cantidad de datos que faltan y que la imputacion por la moda de  la clase a la que corresponde la instancia tiene poca probabilidad de  afectar  negativamente el modelo resultante

## Eliminando duplicados

In [47]:
df.drop_duplicates(inplace=True)## Eliminando filas duplicadas.

In [48]:
df

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,nr.employed,subscribed
0,56,housemaid,married,basic.4y,no,no,no,telephone,may,mon,261,1,999,0,nonexistent,1.1,93.994,-36.4,5191,no
1,57,services,married,high.school,,no,no,telephone,may,mon,149,1,999,0,nonexistent,1.1,93.994,-36.4,5191,no
2,37,services,married,high.school,no,yes,no,telephone,may,mon,226,1,999,0,nonexistent,1.1,93.994,-36.4,5191,no
3,40,admin.,married,basic.6y,no,no,no,telephone,may,mon,151,1,999,0,nonexistent,1.1,93.994,-36.4,5191,no
4,56,services,married,high.school,no,no,yes,telephone,may,mon,307,1,999,0,nonexistent,1.1,93.994,-36.4,5191,no
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
41183,73,retired,married,professional.course,no,yes,no,cellular,nov,fri,334,1,999,0,nonexistent,-1.1,94.767,-50.8,4963,yes
41184,46,blue-collar,married,professional.course,no,no,no,cellular,nov,fri,383,1,999,0,nonexistent,-1.1,94.767,-50.8,4963,no
41185,56,retired,married,university.degree,no,yes,no,cellular,nov,fri,189,2,999,0,nonexistent,-1.1,94.767,-50.8,4963,
41186,44,technician,married,professional.course,no,no,no,cellular,nov,fri,442,1,999,0,nonexistent,-1.1,94.767,-50.8,4963,


In [49]:
for col in df:
    print(f"{col} = {df[col].unique()}")

age = [56 57 37 40 45 59 41 24 25 29 35 54 46 50 39 30 55 49 34 52 58 32 38 44
 42 60 53 47 51 48 33 31 43 36 28 27 26 22 23 20 21 61 19 18 70 66 76 67
 73 88 95 77 68 75 63 80 62 65 72 82 64 71 69 78 85 79 83 81 74 17 87 91
 86 98 94 84 92 89]
job = ['housemaid' 'services' 'admin.' 'blue-collar' 'technician' 'retired'
 'management' 'unemployed' 'self-employed' nan 'entrepreneur' 'student']
marital = ['married' 'single' 'divorced' nan]
education = ['basic.4y' 'high.school' 'basic.6y' 'basic.9y' 'professional.course' nan
 'university.degree' 'illiterate']
default = ['no' nan 'yes']
housing = ['no' 'yes' nan]
loan = ['no' 'yes' nan]
contact = ['telephone' 'cellular']
month = ['may' 'jun' 'jul' 'aug' 'oct' 'nov' 'dec' 'mar' 'apr' 'sep']
day_of_week = ['mon' 'tue' 'wed' 'thu' 'fri']
duration = [ 261  149  226 ... 1246 1556 1868]
campaign = [ 1  2  3  4  5  6  7  8  9 10 11 12 13 19 18 23 14 22 25 16 17 15 20 56
 39 35 42 28 26 27 32 21 24 29 31 30 41 37 40 33 34 43]
pdays = [999   6   4   

In [50]:
print((df.isnull().sum()/len(df)*100).sort_values())


age                0.000000
cons.conf.idx      0.000000
cons.price.idx     0.000000
emp.var.rate       0.000000
poutcome           0.000000
previous           0.000000
pdays              0.000000
campaign           0.000000
duration           0.000000
day_of_week        0.000000
month              0.000000
contact            0.000000
nr.employed        0.000000
subscribed         0.007286
marital            0.194293
job                0.801457
loan               2.404372
housing            2.404372
education          4.201579
default           20.876746
dtype: float64


Para las variables que tienen un porcentaje muy pequeño de datos faltantes tales como:
* marital
* job
* loan
* housing
* education
Aplicaremos una imputation por la moda ya que son variables categóricas y esto no afectará el desempeño del modelo.

**Para la variable poutcome, la cual puede ser importante debido a que representa el resultado de la campaña anterior y toma el valor de nonexistent en caso de que la campaña haya sido inexistente, optaremos por dejarla tal y como está asumiendo que contiene 3 categorias: exito en la campaña anterior , fracaso en la campaña anterior o no hubo campaña anterior, el motivo es que esta columna proporciona información importante sobre si fue el primer contacto con el cliente o no para ofrecer la campaña aparte de si fue exitosa o no.**

Se opta por eliminar la columna default debido a que contiene más del 20% de datos faltantes y cualquier supuesto o imputación que se haga respecto a que valores debería tener podría sesgar fuertemente los resultados del modelo.

# Imputando valores faltantes de las variables categóricas por la moda.
Se usará la función imputer con el argumento most frequent de sklearn para imputar los valores faltantes con la moda en las columnas  marital, job, loan, housing, education

In [51]:
cols_to_fill=['marital','job','loan','housing','education'] #columnas a imputar
imp = SimpleImputer(missing_values=np.nan, strategy='most_frequent')
imp.fit(df[cols_to_fill])
df[cols_to_fill]=imp.transform(df[cols_to_fill])


Se observa que se ha imputado correctamente los valores faltantes por la moda y ahora
solo hay valores faltantes de la columna subscribed que serán los que estimaremos y en la columna default

In [52]:
print((df.isnull().sum()/len(df)*100).sort_values())


age                0.000000
cons.conf.idx      0.000000
cons.price.idx     0.000000
emp.var.rate       0.000000
poutcome           0.000000
previous           0.000000
pdays              0.000000
campaign           0.000000
duration           0.000000
day_of_week        0.000000
month              0.000000
contact            0.000000
loan               0.000000
housing            0.000000
education          0.000000
marital            0.000000
job                0.000000
nr.employed        0.000000
subscribed         0.007286
default           20.876746
dtype: float64


In [53]:
for col in df:
    print(f"{col} = {df[col].unique()}")

age = [56 57 37 40 45 59 41 24 25 29 35 54 46 50 39 30 55 49 34 52 58 32 38 44
 42 60 53 47 51 48 33 31 43 36 28 27 26 22 23 20 21 61 19 18 70 66 76 67
 73 88 95 77 68 75 63 80 62 65 72 82 64 71 69 78 85 79 83 81 74 17 87 91
 86 98 94 84 92 89]
job = ['housemaid' 'services' 'admin.' 'blue-collar' 'technician' 'retired'
 'management' 'unemployed' 'self-employed' 'entrepreneur' 'student']
marital = ['married' 'single' 'divorced']
education = ['basic.4y' 'high.school' 'basic.6y' 'basic.9y' 'professional.course'
 'university.degree' 'illiterate']
default = ['no' nan 'yes']
housing = ['no' 'yes']
loan = ['no' 'yes']
contact = ['telephone' 'cellular']
month = ['may' 'jun' 'jul' 'aug' 'oct' 'nov' 'dec' 'mar' 'apr' 'sep']
day_of_week = ['mon' 'tue' 'wed' 'thu' 'fri']
duration = [ 261  149  226 ... 1246 1556 1868]
campaign = [ 1  2  3  4  5  6  7  8  9 10 11 12 13 19 18 23 14 22 25 16 17 15 20 56
 39 35 42 28 26 27 32 21 24 29 31 30 41 37 40 33 34 43]
pdays = [999   6   4   3   5   1   0  10   

## Eliminando la columna default

In [54]:
df.drop("default",axis=1, inplace=True)

In [55]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 41175 entries, 0 to 41187
Data columns (total 19 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   age             41175 non-null  int64  
 1   job             41175 non-null  object 
 2   marital         41175 non-null  object 
 3   education       41175 non-null  object 
 4   housing         41175 non-null  object 
 5   loan            41175 non-null  object 
 6   contact         41175 non-null  object 
 7   month           41175 non-null  object 
 8   day_of_week     41175 non-null  object 
 9   duration        41175 non-null  int64  
 10  campaign        41175 non-null  int64  
 11  pdays           41175 non-null  int64  
 12  previous        41175 non-null  int64  
 13  poutcome        41175 non-null  object 
 14  emp.var.rate    41175 non-null  float64
 15  cons.price.idx  41175 non-null  float64
 16  cons.conf.idx   41175 non-null  float64
 17  nr.employed     41175 non-null 

## Guardando el dataset preprocesado en el csv bank_camp_clean

In [56]:
df.to_csv("../data/interim/bank_camp_intermediate.csv")

## Resultados parciales del preprocesamiento

* Se han explorado los problemas de calidad de datos de Bank_campaign, se han identificado los valores nulos, los errores en los  puntos decimales, problemas en los tipos de datos, datos carentes de sentido dentro de los rangos de la variable etc... Además se han eliminado filas duplicadas y se eliminó la columna eurobor3m, y default obteniendo un dataset con 41175 filas y 19 columnas para poder realizar el analisis exploratorio, ingeniería de características y posterior modelado.

* Se ha obtenido el dataset bank_camp_preprocessed.csv el cual era usado en el siguiente notebook para hacer un análisis estadístico de las variables y poder transformar las columnas de acuerdo a las necesidades de los modelos que realizaremos.

## Referencias
https://www.dane.gov.co/index.php/estadisticas-por-tema/precios-y-costos/indice-de-precios-al-consumidor-ipc

https://medium.com/nerd-for-tech/class-imbalance-problem-and-ways-to-handle-it-4861a195398a

https://medium.com/analytics-vidhya/complete-guide-to-data-cleaning-with-python-8c686104686c



Autor : 
**Nicolas Restrepo Carvajal** 

https://www.linkedin.com/in/niconomist98/

https://github.com/niconomist98


