# ENTREGABLE 1

INSTRUCCIONES

Realizar la primera fase del análisis exploratorio (limpieza) usando el archivo CSV (dataset_banco.csv) con 45215 filas y 17 columnas.

# 1. El problema del negocio

Una entidad bancaria contrata a una empresa de marketing encargada de contactar telefónicamente a posibles clientes para determinar si están interesados o no en adquirir un certificado de depósito a término con el banco.

¿Qué perfil tienen los clientes con mayor potencial de conversión?

#2. El set de datos

Cada registro contiene 16 características (las primeras 16 columnas) y una categoría ("yes" o "no" dependiendo de si la persona está o no interesada en adquirir el producto). Las columnas son:

1. "age":  edad (numérica)
2. "job": tipo de trabajo (categórica: "admin.", "unknown", "unemployed", "management", "housemaid", "entrepreneur", "student", "blue-collar","self-employed", "retired", "technician", "services")
3. "marital": estado civil (categórica: "married", "divorced", "single")
4. "education": nivel educativo (categórica: "unknown", "secondary", "primary", "tertiary")
5. "default": si dejó de pagar sus obligaciones (categórica: "yes", "no")
6. "balance": saldo promedio anual en euros (numérica)
7. "housing": ¿tiene o no crédito hipotecario? (categórica: "yes", "no")
8. "loan": ¿tiene créditos de consumo? (categórica: "yes", "no")
9. "contact": medio a través del cual fue contactado (categórica: "unknown", "telephone", "cellular")
10. "day": último día del mes en el que fue contactada (numérica)
11. "month": último mes en el que fue contactada (categórica: "jan", "feb", "mar", ..., "nov", "dec")
12. "duration": duración (en segundos) del último contacto (numérica)
13. "campaign": número total de veces que fue contactada durante la campaña (numérica)
14. "pdays": número de días transcurridos después de haber sido contactado antes de la campaña actual (numérica. -1 indica que no fue contactado previamente)
15. "previous": número de veces que ha sido contactada antes de esta campaña (numérica)
16. "poutcome": resultado de la campaña de marketing anterior (categórica: "unknown", "other", "failure", "success")
17. "y": categoría ¿el cliente se suscribió a un depósito a término? (categórica: "yes", "no")

#3. Una primera mirada al dataset

In [None]:
# Importar librerías
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
import pandas as pd
from google.colab import drive

drive.mount('/gdrive')



Mounted at /gdrive


In [74]:
ruta = "/content/EDEM/dataset_banco.csv"
data = pd.read_csv(ruta)


In [75]:
print(data.shape)
data.head()



(45215, 17)


Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,58,management,married,tertiary,no,2143.0,yes,no,unknown,5,may,261.0,1,-1.0,0,unknown,no
1,44,technician,single,secondary,no,29.0,yes,no,unknown,5,may,151.0,1,-1.0,0,unknown,no
2,33,entrepreneur,married,secondary,no,2.0,yes,yes,unknown,5,may,76.0,1,-1.0,0,unknown,no
3,47,blue-collar,married,unknown,no,1506.0,yes,no,unknown,5,may,92.0,1,-1.0,0,unknown,no
4,33,unknown,single,unknown,no,1.0,no,no,unknown,5,may,198.0,1,-1.0,0,unknown,no


In [76]:
print("Número total de filas:", len(data))

Número total de filas: 45215


In [77]:
# Veamos las variables categóricas y las numéricas
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45215 entries, 0 to 45214
Data columns (total 17 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   age        45215 non-null  int64  
 1   job        45213 non-null  object 
 2   marital    45214 non-null  object 
 3   education  45214 non-null  object 
 4   default    45215 non-null  object 
 5   balance    45213 non-null  float64
 6   housing    45215 non-null  object 
 7   loan       45215 non-null  object 
 8   contact    45215 non-null  object 
 9   day        45215 non-null  int64  
 10  month      45215 non-null  object 
 11  duration   45214 non-null  float64
 12  campaign   45215 non-null  int64  
 13  pdays      45214 non-null  float64
 14  previous   45215 non-null  int64  
 15  poutcome   45215 non-null  object 
 16  y          45215 non-null  object 
dtypes: float64(3), int64(4), object(10)
memory usage: 5.9+ MB


#4. Limpieza

Realizaremos el proceso de limpieza teniendo en cuenta las situaciones más comunes:

1. Datos faltantes en algunas celdas
2. Columnas irrelevantes (que no responden al problema que queremos resolver)
3. Registros (filas) repetidos
4. Valores extremos (*outliers*) en el caso de las variables numéricas. Se deben analizar en detalle pues no necesariamente la solución es eliminarlos
5. Errores tipográficos en el caso de las variables categóricas

Al final de este proceso de limpieza deberíamos tener un set de datos **íntegro**, listo para la fase de Análisis Exploratorio.

## 4.1 Datos faltantes

Comenzamos a ver que los datos no están completos, pues no todas las columnas tienen la misma cantidad de registros.

El número total de registros debería ser 45.215. Sin embargo columnas como "job", "marital", "education", "balance", "duration" y "pdays".

Por ser tan pocos los datos  faltantes optaremos por eliminar las filas correspondientes:

In [78]:
# Ver valores nulos en el DataFrame
valores_nulos = data.isnull().sum()

# Imprimir el número de valores nulos en cada columna
print(valores_nulos)

age          0
job          2
marital      1
education    1
default      0
balance      2
housing      0
loan         0
contact      0
day          0
month        0
duration     1
campaign     0
pdays        1
previous     0
poutcome     0
y            0
dtype: int64


Al ser una cantidad irrisoria de elementos de nulos, simplemente los descartamos.

In [79]:
# Eliminar todas las filas que contienen valores nulos
data = data.dropna()

# Verificar si hay valores nulos en el DataFrame resultante
print(data.isnull().sum())

age          0
job          0
marital      0
education    0
default      0
balance      0
housing      0
loan         0
contact      0
day          0
month        0
duration     0
campaign     0
pdays        0
previous     0
poutcome     0
y            0
dtype: int64


##4.2 Columnas irrelevantes

Una columna irrelevante puede ser:

- **Una columna que no contiene información relevante para el problema que queremos resolver**. Por ejemplo en este caso podría ser una columna que no guarde relación con el posible perfil del cliente (deporte favorito, hobbies, comida favorita, etc.)
- **Una columna categórica pero con un sólo nivel**. Por ejemplo si en la columna "job" solo tuviésemos el nivel "unknown".
- **Una columna numérica pero con un sólo valor**. Por ejemplo si en la columna "edad" todos los vlaores fuesen iguales a 50.
- **Columnas con información redundante**. Por ejemplo si además de las columnas "month" y "day" tuviésemos la columna "month-day", resultado de combinar las dos anteriores.

Si tenemos la duda de si alguna columna puede ser relevante o no lo mejor es dejarla (y más adelante en posteriores etapas podremos darnos cuenta de si se debe preservar o no).

En este caso todas las columnas pueden resultar relevantes, pero debemos verificar que no haya columnas categóricas con un sólo nivel, o columnas numéricas con un sólo valor:

Todas las columnas categóricas tienen más de 1 subnivel. No eliminaremos ninguna.

Verifiquemos lo que ocurre con las columnas numéricas:

Todas las columnas numéricas tienen desviaciones estándar ("std") diferentes de cero, lo que indica que no tienen un único valor.

Preservaremos todas las columnas numéricas.

In [80]:
# Obtener la distribución de valores de la variable "job"
reparto_job = data['job'].value_counts()

# Imprimir el reparto de valores
print(reparto_job)


job
blue-collar       9730
management        9454
technician        7597
admin.            5166
services          4153
retired           2263
self-employed     1578
entrepreneur      1487
unemployed        1303
housemaid         1240
student            938
unknown            288
administrative       3
Management           2
MANAGEMENT           2
Self-employed        1
Services             1
Retired              1
Name: count, dtype: int64


Vemos que la variable job tienen 288 registros desconocidos (unknown). Al ser también cantidades irrisorias respecto a un dataset extenso, si estos registros no suponen un volumen muy amplio, procederemos a eliminar esos registros, en vez de otorgar valores estimados que pueden ser erróneos.

In [81]:
# Eliminar filas que contienen 'unknown' en la columna 'job'
data = data.drop(data[data['job'] == 'unknown'].index)

# Verificar si 'unknown' fue eliminado correctamente
print(data['job'].value_counts())


job
blue-collar       9730
management        9454
technician        7597
admin.            5166
services          4153
retired           2263
self-employed     1578
entrepreneur      1487
unemployed        1303
housemaid         1240
student            938
administrative       3
Management           2
MANAGEMENT           2
Self-employed        1
Services             1
Retired              1
Name: count, dtype: int64


Realizamos el borrado de registros desconocidos para el resto de variables.

In [82]:
# Obtener la distribución de valores de la variable "education"
reparto_education = data['education'].value_counts()

# Imprimir el reparto de valores
print(reparto_education)

education
secondary    23121
tertiary     13262
primary       6797
unknown       1728
SECONDARY        3
Primary          2
sec.             2
UNK              2
Secondary        1
Tertiary         1
Name: count, dtype: int64


In [83]:
# Eliminar filas que contienen 'unknown' en la columna 'education'
data = data.drop(data[data['education'] == 'unknown'].index)

# Verificar si 'unknown' fue eliminado correctamente
print(data['education'].value_counts())

education
secondary    23121
tertiary     13262
primary       6797
SECONDARY        3
Primary          2
sec.             2
UNK              2
Secondary        1
Tertiary         1
Name: count, dtype: int64


In [84]:
# Eliminar filas que contienen 'unknown' en la columna 'education
data = data.drop(data[data['education'] == 'UNK'].index)

# Verificar si 'unknown' fue eliminado correctamente
print(data['education'].value_counts())

education
secondary    23121
tertiary     13262
primary       6797
SECONDARY        3
Primary          2
sec.             2
Secondary        1
Tertiary         1
Name: count, dtype: int64


##4.3 Filas repetidas

In [85]:
# Encontrar filas duplicadas en el DataFrame
filas_duplicadas = data[data.duplicated()]

# Mostrar las filas duplicadas
print(filas_duplicadas)

# Contar el número de filas duplicadas en el DataFrame
num_filas_duplicadas = data.duplicated().sum()

# Mostrar el número de filas duplicadas
print("Número de filas duplicadas:", num_filas_duplicadas)


       age          job   marital  education default  balance housing loan  \
1201    43  blue-collar   married  secondary     yes     -7.0      no   no   
36438   29   technician    single   tertiary      no  18254.0      no   no   
45197   59   management   married   tertiary      no    138.0     yes  yes   
45203   52   technician  divorced  secondary      no   1005.0     yes   no   

        contact  day month  duration  campaign  pdays  previous poutcome    y  
1201    unknown    8   may      70.0         1   -1.0         0  unknown   no  
36438  cellular   11   may     279.0         2   -1.0         0  unknown   no  
45197  cellular   16   nov     162.0         2  187.0         5  failure   no  
45203  cellular    2   jun     195.0         1   -1.0         0  unknown  yes  
Número de filas duplicadas: 4


Vemos que hay 4 registros duplicados en el dataset, por lo que los eliminamos al ser irrelevantes.

In [86]:
# Eliminar las filas duplicadas del DataFrame y actualizarlo
data = data.drop_duplicates()

# Verificar si se eliminaron las filas duplicadas
print("Número de filas después de eliminar duplicadas:", len(data))



Número de filas después de eliminar duplicadas: 43185


##4.4 *Outliers* en las variables numéricas

No siempre se deben eliminar los *outliers* porque dependiendo de la variable numérica analizada estos pueden contener información importante.


Vamos a analizar variable por variable si existe la posibilidad de haya valores anormales.

In [87]:
# Filtrar el DataFrame para encontrar edades mayores que 100 o menores que 18
edades_invalidas = data[(data['age'] > 100) | (data['age'] < 18)]

# Imprimir el número de filas con edades inválidas
print("Número de filas con edades inválidas:", len(edades_invalidas))


Número de filas con edades inválidas: 8


Vemos que hay 8 registros con edades mayores a 100 o menores a 18, lo que son valores erróneos en el estudio, por lo que descartamos dichos registros.

In [88]:
# Identificar las filas que contienen edades mayores que 100 o menores que 18
indices_edades_invalidas = data[(data['age'] > 100) | (data['age'] < 18)].index

# Eliminar las filas con edades inválidas del DataFrame original
data = data.drop(indices_edades_invalidas)

# Imprimir el número total de filas después de eliminar las edades inválidas
print("Número total de filas después de eliminar edades inválidas:", len(data))


Número total de filas después de eliminar edades inválidas: 43177


In [89]:
# Filtrar los valores negativos en la columna 'duration'
valores_negativos_duration = data[data['duration'] < 0]

# Contar cuántas veces se repiten los valores negativos de 'duration'
repeticiones_negativos_duration = valores_negativos_duration['duration'].value_counts()

# Imprimir los valores negativos y cuántas veces se repiten
print("Valores negativos en 'duration' y su frecuencia:")
print(repeticiones_negativos_duration)


Valores negativos en 'duration' y su frecuencia:
duration
-517.0     1
-1389.0    1
Name: count, dtype: int64


Vemos que en el campo duración hay 2 registros negativos, lo que es erróneo para el estudio, así que también descartamos esos registros.

In [90]:
# Filtrar los valores negativos en la columna 'duration'
indices_valores_negativos = data[data['duration'] < 0].index

# Eliminar los registros con valores negativos en 'duration' del DataFrame original
data = data.drop(indices_valores_negativos)

# Verificar si se eliminaron correctamente los registros con valores negativos
print("Número total de filas después de eliminar valores negativos en 'duration':", len(data))


Número total de filas después de eliminar valores negativos en 'duration': 43175


##4.5 Errores tipográficos en variables categóricas

En una variable categórica pueden aparecer sub-niveles como "unknown" y "UNK" que para nosotros son equivalentes pero que para nuestro programa parecerían diferentes.

Se deben unificar estos sub-niveles

In [91]:
# Obtener la distribución de valores de la variable "job"
reparto_job = data['job'].value_counts()

# Imprimir el reparto de valores
print(reparto_job)

job
blue-collar       9273
management        9211
technician        7351
admin.            4994
services          4001
retired           2143
self-employed     1538
entrepreneur      1411
unemployed        1274
housemaid         1195
student            774
administrative       3
Management           2
MANAGEMENT           2
Self-employed        1
Services             1
Retired              1
Name: count, dtype: int64


Vemos que muchos registros tienen asignados valores escritos de forma diferente pero que significan lo mismo, por lo que procederemos a unificarlos (admin y administrative, management y Management, etc)

In [92]:
# Unificar los registros en la columna 'job'
data['job'] = data['job'].replace({
    'administrative': 'admin.',
    'Management': 'management',
    'MANAGEMENT': 'management',
    'Self-employed': 'self-employed',
    'Services': 'services',
    'Retired': 'retired'
})

# Verificar la corrección en la columna 'job'
print(data['job'].value_counts())


job
blue-collar      9273
management       9215
technician       7351
admin.           4997
services         4002
retired          2144
self-employed    1539
entrepreneur     1411
unemployed       1274
housemaid        1195
student           774
Name: count, dtype: int64


Ahora vamos haciendo lo mismo para cada una de las variables.

In [94]:
# Obtener la distribución de valores de la variable "marital"
reparto_marital = data['marital'].value_counts()

# Imprimir el reparto de valores
print(reparto_marital)

marital
married     25936
single      12211
divorced     5015
div.            7
DIVORCED        3
Single          3
Name: count, dtype: int64


In [95]:
# Unificar los registros en la columna 'marital'
data['marital'] = data['marital'].replace({
    'div.': 'divorced',
    'DIVORCED': 'divorced',
    'Single': 'single'
})

# Verificar la corrección en la columna 'marital'
print(data['marital'].value_counts())


marital
married     25936
single      12214
divorced     5025
Name: count, dtype: int64


In [96]:
# Obtener la distribución de valores de la variable "education"
reparto_education = data['education'].value_counts()

# Imprimir el reparto de valores
print(reparto_education)

education
secondary    23112
tertiary     13259
primary       6795
SECONDARY        3
Primary          2
sec.             2
Secondary        1
Tertiary         1
Name: count, dtype: int64


In [97]:
# Unificar los registros en la columna 'education'
data['education'] = data['education'].replace({
    'SECONDARY': 'secondary',
    'Primary': 'primary',
    'sec.': 'secondary',
    'Secondary': 'secondary',
    'Tertiary': 'tertiary'
})

# Verificar la corrección en la columna 'education'
print(data['education'].value_counts())


education
secondary    23118
tertiary     13260
primary       6797
Name: count, dtype: int64


In [98]:
# Obtener la distribución de valores de la variable "contact"
reparto_contact = data['contact'].value_counts()

# Imprimir el reparto de valores
print(reparto_contact)

contact
cellular     28202
unknown      12278
telephone     2689
phone            3
mobile           3
Name: count, dtype: int64


Aquí vemos que todos los valores significan lo mismo, por lo que los unificaremos a cellular que es el más común.

In [99]:
# Unificar los registros en la columna 'contact'
data['contact'] = data['contact'].replace({
    'telephone': 'cellular',
    'mobile': 'cellular',
    'phone': 'cellular'
})

# Verificar la corrección en la columna 'contact'
print(data['contact'].value_counts())


contact
cellular    30897
unknown     12278
Name: count, dtype: int64


In [100]:
# Obtener la distribución de valores de la variable "poutcome"
reparto_poutcome = data['poutcome'].value_counts()

# Imprimir el reparto de valores
print(reparto_poutcome)

poutcome
unknown    35269
failure     4706
other       1772
success     1422
UNK            4
Success        2
Name: count, dtype: int64


In [101]:
# Unificar los registros en la columna 'poutcome'
data['poutcome'] = data['poutcome'].replace({
    'UNK': 'unknown',
    'Success': 'success'
})

# Verificar la corrección en la columna 'poutcome'
print(data['poutcome'].value_counts())


poutcome
unknown    35273
failure     4706
other       1772
success     1424
Name: count, dtype: int64


## Conclusiones

Con todas estas modificaciones, ya disponemos de un dataset más limpio, y por tanto más preciso, el cual usar de partida para los estudios posteriores.

In [66]:
from google.colab import files

# Guardar el DataFrame limpio en un archivo CSV
data.to_csv("dataset_banco_cleaned.csv", index=False)

# Descargar el archivo CSV generado
files.download("dataset_banco_cleaned.csv")


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>