# Limpieza de datos

**1. El problema del negocio**

Una entidad bancaria contrata a una empresa de marketing encargada de contactar telefónicamente a posibles clientes para determinar si están interesados o no en adquirir un certificado de depósito a término con el banco.

¿Qué perfil tienen los clientes con mayor potencial de conversión?

**2. El set de datos**

La información recolectada por la empresa de mercadeo se encuentra en un archivo CSV (`dataset_banco.csv`) con 45215 filas y 17 columnas.

Cada registro contiene 16 características (las primeras 16 columnas) y una categoría ("yes" o "no" dependiendo de si la persona está o no interesada en adquirir el producto). Las columnas son:

1. "age":  edad (numérica)
2. "job": tipo de trabajo (categórica: "admin.", "unknown", "unemployed", "management", "housemaid", "entrepreneur", "student", "blue-collar","self-employed", "retired", "technician", "services") 
3. "marital": estado civil (categórica: "married", "divorced", "single")
4. "education": nivel educativo (categórica: "unknown", "secondary", "primary", "tertiary")
5. "default": si dejó de pagar sus obligaciones (categórica: "yes", "no")
6. "balance": saldo promedio anual en euros (numérica)
7. "housing": ¿tiene o no crédito hipotecario? (categórica: "yes", "no")
8. "loan": ¿tiene créditos de consumo? (categórica: "yes", "no")
9. "contact": medio a través del cual fue contactado (categórica: "unknown", "telephone", "cellular") 
10. "day": último día del mes en el que fue contactada (numérica)
11. "month": último mes en el que fue contactada (categórica: "jan", "feb", "mar", ..., "nov", "dec")
12. "duration": duración (en segundos) del último contacto (numérica)
13. "campaign": número total de veces que fue contactada durante la campaña (numérica)
14. "pdays": número de días transcurridos después de haber sido contactado antes de la campaña actual (numérica. -1 indica que no fue contactado previamente)
15. "previous": número de veces que ha sido contactada antes de esta campaña (numérica)
16. "poutcome": resultado de la campaña de marketing anterior (categórica: "unknown", "other", "failure", "success")
17. "y": categoría ¿el cliente se suscribió a un depósito a término? (categórica: "yes", "no")

#3. Una primera mirada al dataset

In [1]:
import os
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# Establecimiento de ruta de trabajo

os.getcwd()
os.listdir()

['dataset_banco.csv',
 'dataset_banco_clean.csv',
 'DistribuciónDatos.ipynb',
 'tutorial-analisis-exploratorio-de-datos.ipynb',
 'tutorial-limpieza-de-datos.ipynb']

In [3]:
# Lectura del conjunto de datos

data = pd.read_csv('dataset_banco.csv')

In [4]:
# Información global
print(data.shape) # Información global
print(data.columns) #Lista de variables

(45215, 17)
Index(['age', 'job', 'marital', 'education', 'default', 'balance', 'housing',
       'loan', 'contact', 'day', 'month', 'duration', 'campaign', 'pdays',
       'previous', 'poutcome', 'y'],
      dtype='object')


**Limpieza de datos**

Casuísticas:

1. Columnas irrelevantes 
1. Tipo de las variables
1. Datos faltantes en algunas celdas
1. Registros redundantes
1. Valores atípicos o extremos (*outliers or extremes*)
5. Errores de registro

In [5]:
data.info() #No todas las columnas registran 45215, veamos qué sucede job muestra solo 45213 completos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45215 entries, 0 to 45214
Data columns (total 17 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   age        45215 non-null  int64  
 1   job        45213 non-null  object 
 2   marital    45214 non-null  object 
 3   education  45214 non-null  object 
 4   default    45215 non-null  object 
 5   balance    45213 non-null  float64
 6   housing    45215 non-null  object 
 7   loan       45215 non-null  object 
 8   contact    45215 non-null  object 
 9   day        45215 non-null  int64  
 10  month      45215 non-null  object 
 11  duration   45214 non-null  float64
 12  campaign   45215 non-null  int64  
 13  pdays      45214 non-null  float64
 14  previous   45215 non-null  int64  
 15  poutcome   45215 non-null  object 
 16  y          45215 non-null  object 
dtypes: float64(3), int64(4), object(10)
memory usage: 5.9+ MB


In [6]:
# Veamos que observaciones vacías tiene

data[data.job.isna()]

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
36881,33,,married,secondary,no,2279.0,yes,no,telephone,12,may,123.0,3,-1.0,0,unknown,no
37145,36,,married,primary,no,828.0,no,no,cellular,13,may,1512.0,1,345.0,8,failure,yes


In [7]:
# Por facilidad, procedamos simplemente a eliminarlas
data.dropna(inplace=True)
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 45207 entries, 0 to 45214
Data columns (total 17 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   age        45207 non-null  int64  
 1   job        45207 non-null  object 
 2   marital    45207 non-null  object 
 3   education  45207 non-null  object 
 4   default    45207 non-null  object 
 5   balance    45207 non-null  float64
 6   housing    45207 non-null  object 
 7   loan       45207 non-null  object 
 8   contact    45207 non-null  object 
 9   day        45207 non-null  int64  
 10  month      45207 non-null  object 
 11  duration   45207 non-null  float64
 12  campaign   45207 non-null  int64  
 13  pdays      45207 non-null  float64
 14  previous   45207 non-null  int64  
 15  poutcome   45207 non-null  object 
 16  y          45207 non-null  object 
dtypes: float64(3), int64(4), object(10)
memory usage: 6.2+ MB


In [8]:
# Valoremos si existen registros repetidos

data.duplicated().sum() # 4 registros repetidos

4

In [9]:
# Veamos cuáles son los registros repetidos
data[data.duplicated()]

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
1201,43,blue-collar,married,secondary,yes,-7.0,no,no,unknown,8,may,70.0,1,-1.0,0,unknown,no
36438,29,technician,single,tertiary,no,18254.0,no,no,cellular,11,may,279.0,2,-1.0,0,unknown,no
45197,59,management,married,tertiary,no,138.0,yes,yes,cellular,16,nov,162.0,2,187.0,5,failure,no
45203,52,technician,divorced,secondary,no,1005.0,yes,no,cellular,2,jun,195.0,1,-1.0,0,unknown,yes


In [10]:
data.drop_duplicates(inplace=True)
print(data.shape)

(45203, 17)


In [11]:
# Información de las variables cualitativas

categoricas = []

for i in data.columns:
    if data[i].dtype == 'object':
        categoricas.append(i)

data[categoricas].nunique()        

job          18
marital       6
education    10
default       2
housing       2
loan          6
contact       5
month        12
poutcome      6
y             2
dtype: int64

In [12]:
data.job.unique()

array(['management', 'technician', 'entrepreneur', 'blue-collar',
       'unknown', 'Management', 'retired', 'admin.', 'services',
       'self-employed', 'MANAGEMENT', 'Self-employed', 'unemployed',
       'housemaid', 'student', 'Services', 'Retired', 'administrative'],
      dtype=object)

In [13]:
# Observemos los niveles para cada variable

for i in categoricas:
    levels = data[i].unique()
    print(i, levels)

job ['management' 'technician' 'entrepreneur' 'blue-collar' 'unknown'
 'Management' 'retired' 'admin.' 'services' 'self-employed' 'MANAGEMENT'
 'Self-employed' 'unemployed' 'housemaid' 'student' 'Services' 'Retired'
 'administrative']
marital ['married' 'single' 'div.' 'divorced' 'DIVORCED' 'Single']
education ['tertiary' 'secondary' 'unknown' 'primary' 'SECONDARY' 'Secondary'
 'Primary' 'sec.' 'Tertiary' 'UNK']
default ['no' 'yes']
housing ['yes' 'no']
loan ['no' 'yes' 'No' 'YES' 'Yes' 'NO']
contact ['unknown' 'cellular' 'telephone' 'phone' 'mobile']
month ['may' 'nov' 'jun' 'jul' 'aug' 'oct' 'dec' 'jan' 'feb' 'mar' 'apr' 'sep']
poutcome ['unknown' 'UNK' 'failure' 'other' 'success' 'Success']
y ['no' 'yes']


In [14]:
# Pasaremos todo a minusculas

for i in categoricas:
    data[i] = data[i].str.lower()

In [15]:
# job: unificar admin. y administrative

print(data['job'].unique())
data['job'] = data['job'].str.replace('admin.','administrative', regex=False)
print(data['job'].unique())

['management' 'technician' 'entrepreneur' 'blue-collar' 'unknown'
 'retired' 'admin.' 'services' 'self-employed' 'unemployed' 'housemaid'
 'student' 'administrative']
['management' 'technician' 'entrepreneur' 'blue-collar' 'unknown'
 'retired' 'administrative' 'services' 'self-employed' 'unemployed'
 'housemaid' 'student']


In [16]:
# Integración de niveles

data['marital'] = data['marital'].str.replace('div.','divorced', regex=False)

data['education'] = data['education'].str.replace('sec.','secondary', regex=False)
data.loc[data['education']=='unk','education'] = 'unknown'

data.loc[data['contact']=='phone','contact'] = 'telephone'
data.loc[data['contact']=='mobile','contact'] = 'cellular'

data.loc[data['poutcome']=='unk','poutcome']='unknown'

In [17]:
# información de las variables cuantitativas

data.describe()

Unnamed: 0,age,balance,day,duration,campaign,pdays,previous
count,45203.0,45203.0,45203.0,45203.0,45203.0,45203.0,45203.0
mean,41.005177,1373.893967,15.807115,258.039754,2.763843,40.177709,0.580138
std,12.037387,3923.852086,8.323018,257.470045,3.098168,100.104768,2.303344
min,18.0,-8019.0,1.0,-1389.0,1.0,-1.0,0.0
25%,33.0,72.0,8.0,103.0,1.0,-1.0,0.0
50%,39.0,448.0,16.0,180.0,2.0,-1.0,0.0
75%,48.0,1427.5,21.0,319.0,3.0,-1.0,0.0
max,776.0,527532.0,31.0,4918.0,63.0,871.0,275.0


En esta tabla vemos datos interesantes que son considerados errores

- "age": hay sujetos con edades mucho mayores a 100 años
- "duration": hay valores con tiempos negativos
- "previous": hay un valor extremadamente alto (cercano a 300)

In [18]:
data[data.age >= 100] # 8 registros

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
229,530,services,divorced,secondary,no,1467.0,yes,no,unknown,5,may,124.0,1,-1.0,0,unknown,no
1076,490,services,single,primary,no,114.0,yes,no,unknown,7,may,99.0,2,-1.0,0,unknown,no
2229,123,student,single,tertiary,no,250.0,yes,no,unknown,12,may,166.0,2,-1.0,0,unknown,no
3018,332,administrative,single,secondary,no,91.0,yes,no,unknown,14,may,302.0,2,-1.0,0,unknown,no
5799,311,self-employed,single,secondary,no,360.0,yes,no,unknown,26,may,592.0,4,-1.0,0,unknown,no
6053,399,blue-collar,married,primary,no,2805.0,yes,no,unknown,26,may,102.0,23,-1.0,0,unknown,no
28152,466,blue-collar,married,secondary,no,120.0,yes,yes,cellular,29,jan,121.0,1,259.0,3,failure,no
43530,776,retired,married,secondary,no,820.0,no,no,telephone,23,apr,263.0,4,-1.0,0,unknown,yes


In [19]:
data = data[data.age < 100]
data.shape

(45195, 17)

In [20]:
# Eliminar valores negativos de duration

data = data[data.duration > 0]
# Eliminar valores excesivamente altos
data = data[data.previous <=200]

data.shape

(45189, 17)

In [94]:
data.shape

(45189, 17)

In [29]:
# Podemos guardar este archivo donde queramos

data.to_csv('Toma_decisiones.csv', index=False)