Contexto: Un banco contrata a una empresa de marketing encargada de contactar telefonicamente a posibles clientes para determinar si estan interesados en ciertos productos bancarios.

Para esto lo primero que debemos hacer es limpiar nuestros datos. Pero antes cargaremos las librerias y nuestros datos

In [2]:
#Importamos librerias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [3]:
#Guardamos nuestros datos en una variable y y mostramos las primeras filas
df = pd.read_csv('dataset_banco.csv')
df.head()

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,58,management,married,tertiary,no,2143.0,yes,no,unknown,5,may,261.0,1,-1.0,0,unknown,no
1,44,technician,single,secondary,no,29.0,yes,no,unknown,5,may,151.0,1,-1.0,0,unknown,no
2,33,entrepreneur,married,secondary,no,2.0,yes,yes,unknown,5,may,76.0,1,-1.0,0,unknown,no
3,47,blue-collar,married,unknown,no,1506.0,yes,no,unknown,5,may,92.0,1,-1.0,0,unknown,no
4,33,unknown,single,unknown,no,1.0,no,no,unknown,5,may,198.0,1,-1.0,0,unknown,no


In [4]:
#Vemos cuantas filas y columnas tiene nuestro df
print(df.shape)

(45215, 17)


In [4]:
#Vemos las variables categoricas y numericas, que sean del tipo de dato que corresponde
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45215 entries, 0 to 45214
Data columns (total 17 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   age        45215 non-null  int64  
 1   job        45213 non-null  object 
 2   marital    45214 non-null  object 
 3   education  45214 non-null  object 
 4   default    45215 non-null  object 
 5   balance    45213 non-null  float64
 6   housing    45215 non-null  object 
 7   loan       45215 non-null  object 
 8   contact    45215 non-null  object 
 9   day        45215 non-null  int64  
 10  month      45215 non-null  object 
 11  duration   45214 non-null  float64
 12  campaign   45215 non-null  int64  
 13  pdays      45214 non-null  float64
 14  previous   45215 non-null  int64  
 15  poutcome   45215 non-null  object 
 16  y          45215 non-null  object 
dtypes: float64(3), int64(4), object(10)
memory usage: 5.9+ MB


Las situaciones más comunes para la limpieza de datos son las siguientes:
1. Datos faltantes
2. Columnas irrelevantes
3. Registros (filas) reperidos
4. Valores extremos (outliers)
5. Errores tipográficos

1. Datos faltantes

Para los datos faltantes tenemos varias opciones como por ejemplo eliminar las filas, interpolar valores, aplicar estadisticos, etc. En este caso veremos que los datos falatantes son pequeños por lo cual una opción sencilla es eliminar estas filas con datos faltantes.

In [6]:
#Verificamos que cuantos valores faltantes tenemos por columnas
df.isnull().sum()

age          0
job          2
marital      1
education    1
default      0
balance      2
housing      0
loan         0
contact      0
day          0
month        0
duration     1
campaign     0
pdays        1
previous     0
poutcome     0
y            0
dtype: int64

In [7]:
#Sumamos el total de datos faltantes
df.isnull().sum().sum()

8

In [10]:
#Eliminaremos nuestros filas con datos faltantes pero también veremos en cuanto varían nuestra cantidad de filas
print(df.shape)
df.dropna(inplace=True)
print(df.shape)

(45207, 17)
(45207, 17)


2. Columnas Irrelevantes

Una columna puede ser irrelevante por varios motivos:
1. No contiene información relevante para el problema que queremos resolver
2. Una columna categorica o numérica pero con un solo valor
3. Columnas con información redundante

En este caso todas las columnas parecen ser relevantes y no redundantes, pero debemos verificar que no contengan un solo valor.

In [11]:
#Vemos cuales son todas las columnas
print(df.columns)

Index(['age', 'job', 'marital', 'education', 'default', 'balance', 'housing',
       'loan', 'contact', 'day', 'month', 'duration', 'campaign', 'pdays',
       'previous', 'poutcome', 'y'],
      dtype='object')


In [14]:
#Ahora verificamos las columnas categóricas
col_cat = ['job', 'marital', 'education', 'default', 'housing',
        'loan', 'contact', 'month','poutcome', 'y']

for col in col_cat:
    print('Columna {}: {} valores distintos'.format(col,df[col].nunique()))

Columna job: 18 valores distintos
Columna marital: 6 valores distintos
Columna education: 10 valores distintos
Columna default: 2 valores distintos
Columna housing: 2 valores distintos
Columna loan: 6 valores distintos
Columna contact: 5 valores distintos
Columna month: 12 valores distintos
Columna poutcome: 6 valores distintos
Columna y: 2 valores distintos


Todas las columnas tienen mas de 1 valor distinto, por lo cual no se eliminara ninguna

In [15]:
#Verificamos con las columnas numericas
df.describe()

Unnamed: 0,age,balance,day,duration,campaign,pdays,previous
count,45207.0,45207.0,45207.0,45207.0,45207.0,45207.0,45207.0
mean,41.005596,1374.201318,15.806534,258.032539,2.763731,40.178225,0.580198
std,12.037399,3924.491665,8.323015,257.460759,3.098058,100.103283,2.303341
min,18.0,-8019.0,1.0,-1389.0,1.0,-1.0,0.0
25%,33.0,72.0,8.0,103.0,1.0,-1.0,0.0
50%,39.0,448.0,16.0,180.0,2.0,-1.0,0.0
75%,48.0,1427.5,21.0,319.0,3.0,-1.0,0.0
max,776.0,527532.0,31.0,4918.0,63.0,871.0,275.0


Todas las columnas tienen desviación estandar distinta de cero, lo que indica que no tiene un valor único.

3. Filas Repetidas

In [16]:
#Verificamos la cantidad de filas duplicadas
df.duplicated().sum()

4

In [17]:
#Como son pocas filas, las eliminamos
print(df.shape)
df.drop_duplicates(inplace=True)
print(df.shape)

(45207, 17)
(45203, 17)
