In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

In [2]:
pd.options.display.max_columns = None

# Pair Programming Limpieza IV

Hipótesis
1. La edad, el trabajo, el estado civil, la educación, la situación de deuda y la forma de contacto pueden influir en la probabilidad de que un cliente acepte la oferta.
2. El número de veces que se ha contactado a un cliente en el pasado (campo campaign), el número de días que han pasado desde el último contacto (campo pdays), y el resultado de la campaña anterior (campo poutcome) pueden afectar la respuesta del cliente a una nueva oferta.
3. Las variables económicas (tales como el índice de precios al consumidor (cons.price.idx), la tasa de variación del empleo (emp.var.rate), etc.) pueden influir en la probabilidad de que un cliente acepte la oferta.
4. Los clientes que ya tienen una hipoteca (housing) o un préstamo (loan) pueden ser menos propensos a aceptar una nueva oferta, ya que podrían estar limitados financieramente.

Es el momento de ponernos a trabajar con los valores nulos 💪🏽. A lo largo de este ejercicio de pair programming vamos a intentar eliminar los valores nulos de nuestras columnas. En la lección hemos aprendido varios métodos, nosotras os planteamos los ejercicios pero sentiros libres de usar el método que más se adapte a vuestras necesidades. Manos a la obra!

1. Lo primero que tenemos que evaluar es en que columnas tenemos nulos y que cantidad tenemos en cada una. ¿Hay alguna columna con una gran cantidad de nulos? En caso de que sea así deberemos eliminarla.

In [72]:
df = pd.read_csv("datos/bank_additional_sin_outliers.csv", index_col = 0)

In [4]:
df_nulos = ((df.isnull().sum() * 100/ df.shape[0])).reset_index()
df_nulos.columns = ['columna', 'porcentaje']
df_nulos

Unnamed: 0,columna,porcentaje
0,age,0.0
1,job,0.801438
2,marital,0.194288
3,education,4.201477
4,default,20.876239
5,housing,2.404313
6,loan,2.404313
7,contact,0.0
8,duration,0.0
9,campaign,0.0


In [5]:
df_sin_default = df.copy()

In [19]:
# la columna 'default' tiene la proporcion de nulos mas alto del dataframe con un 20%. 
# Aunque no nos parece una cantidad suficientemente alta para eliminar la columna entera, 
# lo vamos a hacer en una copia del dataframe para practicar.

df_sin_default.drop(columns=['default'], inplace=True)
df_sin_default.sample()



Unnamed: 0,age,job,marital,education,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,y,month_day_week,month,day
30740,34,blue-collar,married,,si,no,cellular,163,1,999,0,FAILURE,-1.8,92.893,-46.2,1.344,5099.1,no,"['may', 'tue']",may,tue


2. Es el momento de eliminar los nulos:
- Reemplazad los valores nulos de la columna age por la media de la edad, redondeada a dos decimales.

In [48]:
# el codigo se escribe asi pero no hay nulos en la columna 'age' asi que no va a hacer nada
df['age'].fillna(round(df['age'].mean(), 2), inplace=True)

- Reemplazad los valores nulos de la columna duration por la mediana de la edad, redondeada a dos decimales.

In [None]:
# el codigo se escribe asi pero no hay nulos en la columna 'duration' asi que no va a hacer nada
df['duration'].fillna(round(df['age'].median(), 2), inplace=True)

- En relación a las columnas de education, default, housing y loan al tratarse de columnas de tipo categórica, reemplazad los valores nulos por una nueva categória que se llame unknown.

In [51]:
for col in ['education', 'housing', 'loan']:
    df[col].replace(np.nan, 'Unknown', inplace=True)
    print(f"valores unicos de {col}: {df[col].unique()}")


valores unicos de education: ['basic 4y' 'high school' 'basic 6y' 'basic 9y' 'professional course'
 'Unknown' 'university degree' 'illiterate']
valores unicos de housing: ['no' 'si' 'Unknown']
valores unicos de loan: ['no' 'si' 'Unknown']


- Reemplazad los valores nulos de las columna job y marital por el valor más frecuente (la moda).

In [73]:
for col in ['job', 'marital']:
    print(f"value counts de {col} antes de reemplazar: {df[col].value_counts()}")
    print('-------------')
    df[col].fillna(df[col].mode()[0], inplace=True)
    print(f"value counts de {col} despues de reemplazar nulos por la moda '{df[col].mode()[0]}': {df[col].value_counts()}")
    print('-------------')

value counts de job antes de reemplazar: administration    10419
blue-collar        9253
technician         6739
services           3967
management         2924
retired            1718
entrepreneur       1456
self-employed      1421
housemaid          1060
unemployed         1014
student             875
Name: job, dtype: int64
-------------
value counts de job despues de reemplazar nulos por la moda 'administration': administration    10749
blue-collar        9253
technician         6739
services           3967
management         2924
retired            1718
entrepreneur       1456
self-employed      1421
housemaid          1060
unemployed         1014
student             875
Name: job, dtype: int64
-------------
value counts de marital antes de reemplazar: married     24921
single      11564
divorced     4611
Name: marital, dtype: int64
-------------
value counts de marital despues de reemplazar nulos por la moda 'married': married     25001
single      11564
divorced     4611
Name: m

3. Guardad el csv.

In [74]:
df.to_csv('datos/bank-additional-sin-outliers-nulos.csv')