---
<img src = '../../../../logo_dh_grupo3.png'>

# <h1><left><ins>Exploración y Limpieza de Datos</ins></left></h1>

## Importación de librerías y bases de datos

In [1]:
# Importamos las librerias relevantes

import pandas as pd
import numpy as np
import seaborn as sns

In [2]:
# Importamos las bases de datos

data_0 = pd.read_csv("bank-additional-full.csv", 
                           sep = ";")

## Inspección general de la base data_0

In [3]:
# Cantidad de filas y columnas

data_0.shape

(41188, 21)

La base de datos tiene 41.188 observaciones de 21 columnas.

In [4]:
# Nombre y tipo de columnas, ademas de cantidad de filas no nulas

data_0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41188 entries, 0 to 41187
Data columns (total 21 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   age             41188 non-null  int64  
 1   job             41188 non-null  object 
 2   marital         41188 non-null  object 
 3   education       41188 non-null  object 
 4   default         41188 non-null  object 
 5   housing         41188 non-null  object 
 6   loan            41188 non-null  object 
 7   contact         41188 non-null  object 
 8   month           41188 non-null  object 
 9   day_of_week     41188 non-null  object 
 10  duration        41188 non-null  int64  
 11  campaign        41188 non-null  int64  
 12  pdays           41188 non-null  int64  
 13  previous        41188 non-null  int64  
 14  poutcome        41188 non-null  object 
 15  emp.var.rate    41188 non-null  float64
 16  cons.price.idx  41188 non-null  float64
 17  cons.conf.idx   41188 non-null 

Hay 10 variables numéricas y 11 categóricas.

Inspeccionamos las variables numéricas:

In [5]:
# Estadisticas descriptivas de variables continuas

data_0.describe()

Unnamed: 0,age,duration,campaign,pdays,previous,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed
count,41188.0,41188.0,41188.0,41188.0,41188.0,41188.0,41188.0,41188.0,41188.0,41188.0
mean,40.02406,258.28501,2.567593,962.475454,0.172963,0.081886,93.575664,-40.5026,3.621291,5167.035911
std,10.42125,259.279249,2.770014,186.910907,0.494901,1.57096,0.57884,4.628198,1.734447,72.251528
min,17.0,0.0,1.0,0.0,0.0,-3.4,92.201,-50.8,0.634,4963.6
25%,32.0,102.0,1.0,999.0,0.0,-1.8,93.075,-42.7,1.344,5099.1
50%,38.0,180.0,2.0,999.0,0.0,1.1,93.749,-41.8,4.857,5191.0
75%,47.0,319.0,3.0,999.0,0.0,1.4,93.994,-36.4,4.961,5228.1
max,98.0,4918.0,56.0,999.0,7.0,1.4,94.767,-26.9,5.045,5228.1


A primera vista, las variables contínuas no presentan missings, tienen igual cantidad de observaciones que filas en la base.

Sin embargo, la variable pdays esta definida como cantidad de dias que pasaron entre el ultimo contacto con el cliente aplicaron  el valor 999 para los casos en los que no hubo contacto previo. Debemos convertir ese valor a None para que no distorsione las metricas.

In [6]:
data_0.loc[data_0['pdays'] == 999, 'pdays'] = np.nan

In [7]:
data_0['pdays'].describe()

count    1515.000000
mean        6.014521
std         3.824906
min         0.000000
25%         3.000000
50%         6.000000
75%         7.000000
max        27.000000
Name: pdays, dtype: float64

Inspeccionamos las variables categóricas:

In [8]:
data_0.y.value_counts()

no     36548
yes     4640
Name: y, dtype: int64

La variable y, el outcome de interés que indica si el usuario aceptó establecer un plazo fijo, no presenta missings.

In [9]:
data_0.job.value_counts()

admin.           10422
blue-collar       9254
technician        6743
services          3969
management        2924
retired           1720
entrepreneur      1456
self-employed     1421
housemaid         1060
unemployed        1014
student            875
unknown            330
Name: job, dtype: int64

In [10]:
data_0.marital.value_counts()

married     24928
single      11568
divorced     4612
unknown        80
Name: marital, dtype: int64

In [11]:
data_0.education.value_counts()

university.degree      12168
high.school             9515
basic.9y                6045
professional.course     5243
basic.4y                4176
basic.6y                2292
unknown                 1731
illiterate                18
Name: education, dtype: int64

In [12]:
data_0.default.value_counts()

no         32588
unknown     8597
yes            3
Name: default, dtype: int64

In [13]:
data_0.housing.value_counts()

yes        21576
no         18622
unknown      990
Name: housing, dtype: int64

In [14]:
data_0.loan.value_counts()

no         33950
yes         6248
unknown      990
Name: loan, dtype: int64

In [15]:
data_0.contact.value_counts()

cellular     26144
telephone    15044
Name: contact, dtype: int64

In [16]:
data_0.month.value_counts()

may    13769
jul     7174
aug     6178
jun     5318
nov     4101
apr     2632
oct      718
sep      570
mar      546
dec      182
Name: month, dtype: int64

In [17]:
data_0.day_of_week.value_counts()

thu    8623
mon    8514
wed    8134
tue    8090
fri    7827
Name: day_of_week, dtype: int64

In [18]:
data_0.poutcome.value_counts()

nonexistent    35563
failure         4252
success         1373
Name: poutcome, dtype: int64

## Limpieza de outliers

In [19]:
# Creamos una funcion que nos devuelve una mascara con las filas de la base definidas como outliers en funcion de una variable

def mask_outlier(data, variable):
    
    q1 = data[variable].quantile(0.25) #percentil 25
    
    q3 = data[variable].quantile(0.75) #percentil 75
    
    iqr = q3 - q1 #rango intercuartilico
    
    iqr_plus = iqr * 1.5
    
    up_threshold = q3 + iqr_plus
    
    low_threshold = q1 - iqr_plus
    
    mask_outlier_sup = data[variable] > up_threshold
    
    mask_outlier_inf = data[variable] < low_threshold
    
    return np.logical_or(mask_outlier_sup, mask_outlier_inf)

In [20]:
'''La idea es crear un booleano en el que se indique con True si en la base
original hay al menos una variable continua para la cual la fila de referencia
constituye un outlier'''

# Creamos lista de variables continuas presentes en la base

mask_continuas = np.logical_or(data_0.dtypes == 'int64', 
                               data_0.dtypes == 'float64')

variables_continuas = list(data_0.columns[mask_continuas])
variables_continuas

['age',
 'duration',
 'campaign',
 'pdays',
 'previous',
 'emp.var.rate',
 'cons.price.idx',
 'cons.conf.idx',
 'euribor3m',
 'nr.employed']

In [21]:
# Analogamente para las variables categoricas presentes en la base

mask_categoricas = data_0.dtypes == 'object'

variables_categoricas = list(data_0.columns[mask_categoricas])
variables_categoricas

['job',
 'marital',
 'education',
 'default',
 'housing',
 'loan',
 'contact',
 'month',
 'day_of_week',
 'poutcome',
 'y']

In [22]:
# Creamos una serie tipo booleano de falsos del mismo tamanio que la base original

outliers = pd.Series(data = False, 
                     index = data_0.index)

# Creamos nueva base, que sea sin outliers y sobre la que trabajaremos de ahora en mas

data_so = data_0.copy()

# Iteramos a traves de cada variable continua de la base

for v in variables_continuas:
    
    # mascara que indica con True si la fila es outlier segun variable v
    
    outliers_var = mask_outlier(data_so, v)
    
    # actualizamos mascara final donde si la fila es outlier segun v entonces
    # se vuelve True
    
    outliers = np.logical_or(outliers, outliers_var)

# Nos quedamos con las filas que no representan outliers para ninguna de las variables continuas

data_so = data_so.loc[~outliers]
data_so.shape

(30360, 21)

La base de datos neta de outliers tiene 30.360 observaciones de 21 columnas.

In [31]:
data_so.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 30360 entries, 0 to 41186
Data columns (total 21 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   age             30360 non-null  int64  
 1   job             30360 non-null  object 
 2   marital         30360 non-null  object 
 3   education       30360 non-null  object 
 4   default         30360 non-null  object 
 5   housing         30360 non-null  object 
 6   loan            30360 non-null  object 
 7   contact         30360 non-null  object 
 8   month           30360 non-null  object 
 9   day_of_week     30360 non-null  object 
 10  duration        30360 non-null  int64  
 11  campaign        30360 non-null  int64  
 12  pdays           0 non-null      float64
 13  previous        30360 non-null  int64  
 14  poutcome        30360 non-null  object 
 15  emp.var.rate    30360 non-null  float64
 16  cons.price.idx  30360 non-null  float64
 17  cons.conf.idx   30360 non-null 

La variable pdays se queda sin observaciones luego de la limpieza de outliers.

## Imputación de missings

In [23]:
# Como las variables continuas no presentan missings, trabajamos solo con las categoricas

# Definimos una funcion que nos traiga la categoria mas frecuente de una variable categorica

def valor_fill_categorica(data, variable, na_is_cat = False, na_cat_name = ''):
    '''
    data: nombre de DataFrame.
    variable: nombre de columna en data, escrita entre ''.
    na_is_cat: booleano que indica si los missings en variable constituyen una categoria en si misma o no.
    na_car_name: si na_is_cat es True, nombre de categoria que indica dato missing en variable.
    '''
    
    if na_is_cat==False:
        
        # Valor de la frecuencia absoluta maxima
        
        frecuencia_max = data[variable].value_counts().max()
        
        # Booleano que indica cual categoria es la que presenta la frecuencia absoluta maxima
        
        mascara_frecuencia_max = data[variable].value_counts() == frecuencia_max
        
        # Nombre de categoria con frecuencia absoluta maxima
        
        var_cat_fillna = data[variable].value_counts().index[mascara_frecuencia_max][0]
        
        return var_cat_fillna
    
    else:
        
        # Filas en las que la variable tiene categoria na
        
        mascara_missings = data[variable] == na_cat_name
        
        # Valor de la frecuencia absoluta maxima
        
        frecuencia_max = data.loc[~mascara_missings, variable].value_counts().max()
        
        # Booleano que indica cual categoria es la que presenta la frecuencia absoluta maxima
        
        mascara_frecuencia_max = data.loc[~mascara_missings, variable].value_counts() == frecuencia_max
        
        # Nombre de categoria con frecuencia absoluta maxima
        
        var_cat_fillna = data.loc[~mascara_missings, variable].value_counts().index[mascara_frecuencia_max][0]
        
        return var_cat_fillna


In [24]:
# Removemos la y del string de categoricas, que ya vimos que no tiene missings

variables_categoricas.remove('y')

In [25]:
variables_categoricas

['job',
 'marital',
 'education',
 'default',
 'housing',
 'loan',
 'contact',
 'month',
 'day_of_week',
 'poutcome']

In [26]:
# Vemos como funciona la funcion definida mas arriba

for v in variables_categoricas:
    
    var_cat_fillna = valor_fill_categorica(data_so, v, na_is_cat = True, na_cat_name = 'unknown')
    
    print("La categoria mas frecuente de la variable", v, "es:", var_cat_fillna)

La categoria mas frecuente de la variable job es: admin.
La categoria mas frecuente de la variable marital es: married
La categoria mas frecuente de la variable education es: university.degree
La categoria mas frecuente de la variable default es: no
La categoria mas frecuente de la variable housing es: yes
La categoria mas frecuente de la variable loan es: no
La categoria mas frecuente de la variable contact es: cellular
La categoria mas frecuente de la variable month es: may
La categoria mas frecuente de la variable day_of_week es: mon
La categoria mas frecuente de la variable poutcome es: nonexistent


In [27]:
# Imputamos missings de variables categoricas con la categoria mas frecuente:

data_limpia = data_so.copy()

for v in variables_categoricas:
    
    var_cat_fillna = valor_fill_categorica(data_limpia, v, na_is_cat = True, na_cat_name = 'unknown')
    
    mascara_na = data_limpia[v] == 'unknown'
    
    data_limpia.loc[mascara_na, v] = var_cat_fillna

In [28]:
# Tabulamos las variables categoricas antes y despues de la imputacion para ver el efecto que tuvo la misma

for v in variables_categoricas:
    
   print(f'Tabulacion de categorias de variable {v}:\n\n\
Original:\n{data_so[v].value_counts()}\n\n\
Luego de limpieza:\n{data_limpia[v].value_counts()}\n')

Tabulacion de categorias de variable job:

Original:
admin.           7669
blue-collar      7146
technician       5086
services         2966
management       2141
entrepreneur     1096
self-employed    1060
retired           911
housemaid         804
unemployed        727
student           507
unknown           247
Name: job, dtype: int64

Luego de limpieza:
admin.           7916
blue-collar      7146
technician       5086
services         2966
management       2141
entrepreneur     1096
self-employed    1060
retired           911
housemaid         804
unemployed        727
student           507
Name: job, dtype: int64

Tabulacion de categorias de variable marital:

Original:
married     18647
single       8305
divorced     3362
unknown        46
Name: marital, dtype: int64

Luego de limpieza:
married     18693
single       8305
divorced     3362
Name: marital, dtype: int64

Tabulacion de categorias de variable education:

Original:
university.degree      8879
high.school            69

In [29]:
data_limpia.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 30360 entries, 0 to 41186
Data columns (total 21 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   age             30360 non-null  int64  
 1   job             30360 non-null  object 
 2   marital         30360 non-null  object 
 3   education       30360 non-null  object 
 4   default         30360 non-null  object 
 5   housing         30360 non-null  object 
 6   loan            30360 non-null  object 
 7   contact         30360 non-null  object 
 8   month           30360 non-null  object 
 9   day_of_week     30360 non-null  object 
 10  duration        30360 non-null  int64  
 11  campaign        30360 non-null  int64  
 12  pdays           0 non-null      float64
 13  previous        30360 non-null  int64  
 14  poutcome        30360 non-null  object 
 15  emp.var.rate    30360 non-null  float64
 16  cons.price.idx  30360 non-null  float64
 17  cons.conf.idx   30360 non-null 

In [30]:
# Exportamos la base limpia

data_limpia.to_csv('bank-additional-full_limpia.csv', index = False)