# **Ejercicios de pair programming Módulo 2 - Sprint 2**
## **Limpieza IV. Valores Nulos**
---

In [1]:
import pandas as pd
import numpy as np
import os
if 'limpieza' not in os.getcwd():
    os.chdir('limpieza')

### Hipótesis  

1. La edad, el trabajo, el estado civil, la educación, la situación de deuda y la forma de contacto pueden influir en la probabilidad de que un cliente acepte la oferta.  

2. El número de veces que se ha contactado a un cliente en el pasado (campo `campaign`), el número de días que han pasado desde el último contacto (campo `pdays`), y el resultado de la campaña anterior (campo `poutcome`) pueden afectar la respuesta del cliente a una nueva oferta.  

3. Las variables económicas (tales como el índice de precios al consumidor (`cons.price.idx`), la tasa de variación del empleo (`emp.var.rate`), etc.) pueden influir en la probabilidad de que un cliente acepte la oferta.  

4. Los clientes que ya tienen una hipoteca (`housing`) o un préstamo (`loan`) pueden ser menos propensos a aceptar una nueva oferta, ya que podrían estar limitados financieramente.  

Es el momento de ponernos a trabajar con los valores nulos 💪🏽. A lo largo de este ejercicio de pair programming vamos a intentar eliminar los valores nulos de nuestras columnas. En la lección hemos aprendido varios métodos, nosotras os planteamos los ejercicios pero sentiros libres de usar el método que más se adapte a vuestras necesidades. Manos a la obra!  

1. Lo primero que tenemos que evaluar es en que columnas tenemos nulos y que cantidad tenemos en cada una. ¿Hay alguna columna con una gran cantidad de nulos? En caso de que sea así deberemos eliminarla.  

In [2]:
# cargamos el dataset
df = pd.read_csv('../datos/bank-additional-full4.csv', index_col = 0)
df.head()

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,...,poutcome,"emp,var,rate","cons,price,idx","cons,conf,idx",euribor3m,"nr,employed",y,month_day_week,month,day_week
0,56,housemaid,married,basic 4y,No,No,No,telephone,261,1,...,NONEXISTENT,1.1,93.994,-36.4,4.857,51910,no,"'may', 'mon'",'may','mon'
1,57,services,married,high school,,No,No,telephone,149,1,...,NONEXISTENT,1.1,93.994,-36.4,4.857,51910,no,"'may', 'mon'",'may','mon'
2,37,services,married,high school,No,Si,No,telephone,226,1,...,NONEXISTENT,1.1,93.994,-36.4,4.857,51910,no,"'may', 'mon'",'may','mon'
3,40,administrator,married,basic 6y,No,No,No,telephone,151,1,...,NONEXISTENT,1.1,93.994,-36.4,4.857,51910,no,"'may', 'mon'",'may','mon'
4,56,services,married,high school,No,No,Si,telephone,307,1,...,NONEXISTENT,1.1,93.994,-36.4,4.857,51910,no,"'may', 'mon'",'may','mon'


In [3]:
print(f'A continuación mostramos el porcentaje de nulos para las columnas \n{df.isnull().sum()/df.shape[0]*100}')

A continuación mostramos el porcentaje de nulos para las columnas 
age                0.000000
job                0.801438
marital            0.194288
education          4.201477
default           20.876239
housing            2.404313
loan               2.404313
contact            0.000000
duration           0.000000
campaign           0.000000
pdays              0.000000
previous           0.000000
poutcome           0.000000
emp,var,rate       0.000000
cons,price,idx     0.000000
cons,conf,idx      0.000000
euribor3m          0.000000
nr,employed        0.000000
y                  0.000000
month_day_week     0.000000
month              0.000000
day_week           0.000000
dtype: float64


In [4]:
# llama la atención el alto porcentaje de nulos de la columna 'default' respecto al resto.
# Además, es una columna que no afecta a las hipótesis que estamos analizando, por lo que la podríamos eliminar pero no se considera que un 20% de nulos justifique la pérdida de datos que eso podría ocasionar
# En caso de decidir eliminarla se haría de la siguiente manera:
# df = df.drop(columns=['default'])
# df.columns

2. Es el momento de eliminar los nulos:
- Reemplazad los valores nulos de la columna age por la media de la edad, redondeada a dos decimales.

In [5]:
df['age'].fillna(df['age'].mean().round(2), inplace=True)
print(f'Comprobamos que los nulos de la columna tratada han desaparecido: \n{df.isnull().sum()/df.shape[0]*100}')

Comprobamos que los nulos de la columna tratada han desaparecido: 
age                0.000000
job                0.801438
marital            0.194288
education          4.201477
default           20.876239
housing            2.404313
loan               2.404313
contact            0.000000
duration           0.000000
campaign           0.000000
pdays              0.000000
previous           0.000000
poutcome           0.000000
emp,var,rate       0.000000
cons,price,idx     0.000000
cons,conf,idx      0.000000
euribor3m          0.000000
nr,employed        0.000000
y                  0.000000
month_day_week     0.000000
month              0.000000
day_week           0.000000
dtype: float64


- Reemplazad los valores nulos de la columna duration por la mediana de la duración, redondeada a dos decimales.

In [6]:
df['duration'].fillna(df['duration'].median().round(2), inplace=True)
print(f'Comprobamos que los nulos de la columna tratada han desaparecido \n{df.isnull().sum()/df.shape[0]*100}')

Comprobamos que los nulos de la columna tratada han desaparecido 
age                0.000000
job                0.801438
marital            0.194288
education          4.201477
default           20.876239
housing            2.404313
loan               2.404313
contact            0.000000
duration           0.000000
campaign           0.000000
pdays              0.000000
previous           0.000000
poutcome           0.000000
emp,var,rate       0.000000
cons,price,idx     0.000000
cons,conf,idx      0.000000
euribor3m          0.000000
nr,employed        0.000000
y                  0.000000
month_day_week     0.000000
month              0.000000
day_week           0.000000
dtype: float64


- En relación a las columnas de education, default, housing y loan al tratarse de columnas de tipo categórica, reemplazad los valores nulos por una nueva categória que se llame unknown.

In [7]:
df[['education', 'default', 'housing', 'loan']] = df[['education', 'default', 'housing', 'loan']].replace(np.nan, 'unknown')
print(f'Comprobamos que los nulos de las columnas tratadas han desaparecido \n{df.isnull().sum()/df.shape[0]*100}')

Comprobamos que los nulos de las columnas tratadas han desaparecido 
age               0.000000
job               0.801438
marital           0.194288
education         0.000000
default           0.000000
housing           0.000000
loan              0.000000
contact           0.000000
duration          0.000000
campaign          0.000000
pdays             0.000000
previous          0.000000
poutcome          0.000000
emp,var,rate      0.000000
cons,price,idx    0.000000
cons,conf,idx     0.000000
euribor3m         0.000000
nr,employed       0.000000
y                 0.000000
month_day_week    0.000000
month             0.000000
day_week          0.000000
dtype: float64


In [8]:
# comprobamos un ejemplo
df['education'].unique()

array(['basic 4y', 'high school', 'basic 6y', 'basic 9y',
       'professional course', 'unknown', 'university degree',
       'illiterate'], dtype=object)

- Reemplazad los valores nulos de las columna job y marital por el valor más frecuente (la moda).

In [9]:
df['job'].replace(np.nan, df['job'].mode()[0], inplace = True)
df['marital'].replace(np.nan, df['marital'].mode()[0], inplace = True)

In [10]:
print(f'Comprobamos que los nulos de las columnas tratadas han desaparecido \n{df.isnull().sum()/df.shape[0]*100}')

Comprobamos que los nulos de las columnas tratadas han desaparecido 
age               0.0
job               0.0
marital           0.0
education         0.0
default           0.0
housing           0.0
loan              0.0
contact           0.0
duration          0.0
campaign          0.0
pdays             0.0
previous          0.0
poutcome          0.0
emp,var,rate      0.0
cons,price,idx    0.0
cons,conf,idx     0.0
euribor3m         0.0
nr,employed       0.0
y                 0.0
month_day_week    0.0
month             0.0
day_week          0.0
dtype: float64


3. Guardad el csv.

In [11]:
df.to_csv('../datos/bank-additional-full5.csv')