# LIMPIEZA IV 21/8

# Hipótesis

1. La edad, el trabajo, el estado civil, la educación, la situación de deuda y la forma de contacto pueden influir en la probabilidad de que un cliente acepte la oferta.
2. El número de veces que se ha contactado a un cliente en el pasado (campo campaign), el número de días que han pasado desde el último contacto (campo pdays), y el resultado de la campaña anterior (campo poutcome) pueden afectar la respuesta del cliente a una nueva oferta.
3. Las variables económicas (tales como el índice de precios al consumidor (cons.price.idx), la tasa de variación del empleo (emp.var.rate), etc.) pueden influir en la probabilidad de que un cliente acepte la oferta.
4. Los clientes que ya tienen una hipoteca (housing) o un préstamo (loan) pueden ser menos propensos a aceptar una nueva oferta, ya que podrían estar limitados financieramente.

In [97]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

1. Lo primero que tenemos que evaluar es en que columnas tenemos nulos y que cantidad tenemos en cada una. ¿Hay alguna columna con una gran cantidad de nulos? En caso de que sea así deberemos eliminarla.

In [98]:
df = pd.read_csv("data/pair3_bank_additional_full.csv", index_col = 0)

In [99]:
df.head(5)

Unnamed: 0,index,age,job,marital,education,default,housing,loan,contact,duration,...,"cons,conf,idx",euribor3m,"nr,employed",y,month_day_week,loan_modificado,housing_modificado,default_modificado,month,day
0,0,56.0,housemaid,married,,0.0,0.0,0.0,telephone,261,...,-36.4,4.857,5191.0,no,"['may', 'mon']",sí,sí,sí,may,mon
1,1,,services,married,,,0.0,,telephone,149,...,-36.4,4.857,5191.0,no,"['may', 'mon']",,sí,,may,mon
2,2,37.0,services,married,high school,0.0,1.0,0.0,telephone,226,...,-36.4,4.857,5191.0,,"['may', 'mon']",sí,no,sí,may,mon
3,3,40.0,,married,basic 6y,0.0,0.0,0.0,telephone,151,...,-36.4,4.857,5191.0,no,"['may', 'mon']",sí,sí,sí,may,mon
4,4,56.0,services,,,0.0,0.0,0.0,telephone,307,...,-36.4,4.857,5191.0,no,"['may', 'mon']",no,sí,sí,may,mon


In [100]:
nulos = pd.DataFrame((df.isnull().sum() * 100) / df.shape[0]).reset_index()
nulos.columns = ["columna", "porcentaje"]
nulos

Unnamed: 0,columna,porcentaje
0,index,0.0
1,age,10.445297
2,job,11.146992
3,marital,19.916962
4,education,33.853737
5,default,20.873598
6,housing,2.403729
7,loan,21.711261
8,contact,0.0
9,duration,0.0


2. Es el momento de eliminar los nulos:
- Reemplazad los valores nulos de las columnas age y campaign por la media, redondeada a dos decimales.

In [101]:
df["age"].isnull().sum()

4302

In [102]:
df['age'].fillna(round(df['age'].mean(),2), inplace = True)


In [103]:
df['age']

0        56.00
1        39.56
2        37.00
3        40.00
4        56.00
         ...  
41181    38.00
41182    46.00
41183    56.00
41184    44.00
41185    38.00
Name: age, Length: 41186, dtype: float64

In [104]:
df['age'].isnull().sum()

0

In [105]:
df["campaign"].isnull().sum()

432

In [106]:
df['campaign'].fillna(round(df['campaign'].mean(),2), inplace = True)

In [107]:
df['campaign']

0        1.0
1        1.0
2        1.0
3        1.0
4        1.0
        ... 
41181    1.0
41182    1.0
41183    2.0
41184    1.0
41185    3.0
Name: campaign, Length: 41186, dtype: float64

In [108]:
df["campaign"].isnull().sum()

0

- Reemplazad los valores nulos de la columna emp.var.rate y cons.price.idx por la mediana de cada una de estas columnas, redondeada a dos decimales.

In [109]:
df["emp,var,rate"].isnull().sum()

12771

In [110]:
df['emp,var,rate'].fillna(round(df['emp,var,rate'].median(),2), inplace = True)

In [111]:
df["emp,var,rate"].isnull().sum()

0

In [112]:
df["cons,price,idx"].isnull().sum()

4300

In [113]:
df['cons,price,idx'].fillna(round(df['cons,price,idx'].median(),2), inplace = True)

In [114]:
df["cons,price,idx"].isnull().sum()

0

- En relación a las columnas de education, default, housing y loan al tratarse de columnas de tipo categórica, reemplazad los valores nulos por una nueva categória que se llame unknown.

In [115]:
df["education"].replace(np.nan, "Unknow", inplace = True)

In [116]:
df_education = df[df["education"] == "Unknow"]
df_education["education"].head()

0    Unknow
1    Unknow
4    Unknow
7    Unknow
8    Unknow
Name: education, dtype: object

In [117]:
df["default"].replace(np.nan, "Unknow", inplace = True)

In [118]:
df_default = df[df["default"] == "Unknow"]
df_default["default"].head()

1     Unknow
5     Unknow
7     Unknow
10    Unknow
15    Unknow
Name: default, dtype: object

In [119]:
df["housing"].replace(np.nan, "Unknow", inplace = True)

In [120]:
df_housing = df[df["housing"] == "Unknow"]
df_housing["housing"].head()

29     Unknow
81     Unknow
261    Unknow
385    Unknow
401    Unknow
Name: housing, dtype: object

In [121]:
df["loan"].replace(np.nan, "Unknow", inplace = True)

In [122]:
df_loan = df[df["loan"] == "Unknow"]
df_loan["loan"].head()

1     Unknow
13    Unknow
15    Unknow
24    Unknow
28    Unknow
Name: loan, dtype: object

- Reemplazad los valores nulos de las columna job y marital por el valor más frecuente (la moda).

In [123]:
df["job"].isnull().sum()

4591

In [124]:
df["job"].mode()

0    administrator
Name: job, dtype: object

In [125]:
df["job"].fillna(df["job"].mode(), inplace = True)

In [126]:
df["job"].isnull().sum()

4591

In [127]:
df["marital"].isnull().sum()

8203

In [128]:
df['marital'].mode()

0    married
Name: marital, dtype: object

In [129]:
df["marital"].replace(np.nan,df["marital"].mode()[0], inplace = True)

In [130]:
df["marital"].isnull().sum()

0

- Nos quedan la columna y. ¿Qué tipo de variable es? Decidid cual sería la mejor gestión de nulos para esta columna.

In [131]:
df["y"].dtypes

dtype('O')

In [132]:
df["y"].unique()

array(['no', nan, 'yes'], dtype=object)

In [133]:
df["y"].isnull().sum()

12751

La columna "y" es una variable de tipo categórica. Tras aplicar el método "unique" constatamos que existen como valor solamente tres resultados: "yes", "no" y nan. Por este motivo, reemplazaría el valor nulo por un nuevo valor llamado "unknown" para catalogar a esas respuestas que no son ni "yes" ni "no" en una nueva categoría. Para ello aplicaríamos:
df["y"].replace(np.nan, "Unknow", inplace = True)


3. Guardad el csv.

In [134]:
df.to_csv("data/pair4_bank_additional_full.csv")