# Hipótesis
1. La edad, el trabajo, el estado civil, la educación, la situación de deuda y la forma de contacto pueden influir en la probabilidad de que un cliente acepte la oferta.

2. El número de veces que se ha contactado a un cliente en el pasado (campo campaign), el número de días que han pasado desde el último contacto (campo pdays), y el resultado de la campaña anterior (campo poutcome) pueden afectar la respuesta del cliente a una nueva oferta.

3. Las variables económicas (tales como el índice de precios al consumidor (cons.price.idx), la tasa de variación del empleo (emp.var.rate), etc.) pueden influir en la probabilidad de que un cliente acepte la oferta.

4. Los clientes que ya tienen una hipoteca (housing) o un préstamo (loan) pueden ser menos propensos a aceptar una nueva oferta, ya que podrían estar limitados financieramente.



Es el momento de ponernos a trabajar con los valores nulos 💪🏽. A lo largo de este ejercicio de pair programming vamos a intentar eliminar los valores nulos de nuestras columnas. En la lección hemos aprendido varios métodos, nosotras os planteamos los ejercicios pero sentiros libres de usar el método que más se adapte a vuestras necesidades. Manos a la obra!




1. Lo primero que tenemos que evaluar es en que columnas tenemos nulos y que cantidad tenemos en cada una. ¿Hay alguna columna con una gran cantidad de nulos? En caso de que sea así deberemos eliminarla.


In [1]:
import pandas as pd
import numpy as np
import sidetable

In [2]:
df_bank = pd.read_csv("datos/bank-additional-full-edit3.csv", index_col= 0)
df_bank.head(2)

Unnamed: 0,job,marital,education,default,housing,loan,contact,poutcome,y,month_day_week,...,age,duration,campaign,pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed
0,housemaid,married,basic.4y,0.0,0.0,0.0,telephone,NONEXISTENT,no,"['may', 'mon']",...,56,261,1,,0,1.1,93.994,-36.4,4.857,5191.0
1,services,married,high.school,,0.0,0.0,telephone,NONEXISTENT,no,"['may', 'mon']",...,57,149,1,,0,1.1,93.994,-36.4,4.857,5191.0


In [3]:
df_bank.stb.missing()

Unnamed: 0,missing,total,percent
pdays,39661,41176,96.320672
default,8596,41176,20.876239
default2,8596,41176,20.876239
education2,1730,41176,4.201477
education,1730,41176,4.201477
loan2,990,41176,2.404313
housing,990,41176,2.404313
loan,990,41176,2.404313
housing2,990,41176,2.404313
job2,330,41176,0.801438


La columna pdays tiene un 96% de nulos. La eliminamos.

In [4]:
df_bank.drop("pdays", axis= 1, inplace= True)
df_bank.head()

Unnamed: 0,job,marital,education,default,housing,loan,contact,poutcome,y,month_day_week,...,day_week,age,duration,campaign,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed
0,housemaid,married,basic.4y,0.0,0.0,0.0,telephone,NONEXISTENT,no,"['may', 'mon']",...,'mon'],56,261,1,0,1.1,93.994,-36.4,4.857,5191.0
1,services,married,high.school,,0.0,0.0,telephone,NONEXISTENT,no,"['may', 'mon']",...,'mon'],57,149,1,0,1.1,93.994,-36.4,4.857,5191.0
2,services,married,high.school,0.0,1.0,0.0,telephone,NONEXISTENT,no,"['may', 'mon']",...,'mon'],37,226,1,0,1.1,93.994,-36.4,4.857,5191.0
3,admin.,married,basic.6y,0.0,0.0,0.0,telephone,NONEXISTENT,no,"['may', 'mon']",...,'mon'],40,151,1,0,1.1,93.994,-36.4,4.857,5191.0
4,services,married,high.school,0.0,0.0,1.0,telephone,NONEXISTENT,no,"['may', 'mon']",...,'mon'],56,307,1,0,1.1,93.994,-36.4,4.857,5191.0


In [5]:
df_bank.stb.missing()

Unnamed: 0,missing,total,percent
default,8596,41176,20.876239
default2,8596,41176,20.876239
education2,1730,41176,4.201477
education,1730,41176,4.201477
loan2,990,41176,2.404313
housing,990,41176,2.404313
loan,990,41176,2.404313
housing2,990,41176,2.404313
job2,330,41176,0.801438
job,330,41176,0.801438



2. Es el momento de eliminar los nulos:

    - Reemplazad los valores nulos de la columna age por la media de la edad, redondeada a dos decimales.


In [6]:
df_bank["age"].replace(np.nan, round(df_bank["age"].mean(), 2), inplace = True)

    - Reemplazad los valores nulos de la columna duration por la mediana, redondeada a dos decimales.


In [7]:
df_bank['duration'].fillna(df_bank['duration'].median() ,inplace = True)

    - En relación a las columnas de education, default, housing y loan al tratarse de columnas de tipo categórica, reemplazad los valores nulos por una nueva categória que se llame unknown.


In [11]:
for col in ["education2", "default2", "housing2", "loan2"]:
    df_bank[col].replace(np.nan, "unknown", inplace = True)

In [12]:
df_bank.stb.missing()

Unnamed: 0,missing,total,percent
default,8596,41176,20.876239
education,1730,41176,4.201477
housing,990,41176,2.404313
loan,990,41176,2.404313
job,330,41176,0.801438
job2,330,41176,0.801438
marital,80,41176,0.194288
day_week,0,41176,0.0
euribor3m,0,41176,0.0
cons_conf_idx,0,41176,0.0


Nuestras columnas se llaman default2, loan2, housing2 y education2 después de las transformaciones del pair Limpieza-III, donde creamos nuevas columnas para no modificar las existentes.

    - Reemplazad los valores nulos de las columna job y marital por el valor más frecuente (la moda).


In [13]:
for col in ["job2", "marital"]:
    df_bank[col].fillna(df_bank[col].mode()[0], inplace = True)

In [14]:
df_bank.stb.missing()

Unnamed: 0,missing,total,percent
default,8596,41176,20.876239
education,1730,41176,4.201477
housing,990,41176,2.404313
loan,990,41176,2.404313
job,330,41176,0.801438
month,0,41176,0.0
euribor3m,0,41176,0.0
cons_conf_idx,0,41176,0.0
cons_price_idx,0,41176,0.0
emp_var_rate,0,41176,0.0


3. Guardad el csv.

In [15]:
df_bank.to_csv("datos/bank-additional-full-edit4.csv")