# ENTREGABLE 1

INSTRUCCIONES

Realizar la primera fase del análisis exploratorio (limpieza) usando el archivo CSV (dataset_banco.csv) con 45215 filas y 17 columnas.

# 1. El problema del negocio

Una entidad bancaria contrata a una empresa de marketing encargada de contactar telefónicamente a posibles clientes para determinar si están interesados o no en adquirir un certificado de depósito a término con el banco.

¿Qué perfil tienen los clientes con mayor potencial de conversión?

#2. El set de datos

Cada registro contiene 16 características (las primeras 16 columnas) y una categoría ("yes" o "no" dependiendo de si la persona está o no interesada en adquirir el producto). Las columnas son:

1. "age":  edad (numérica)
2. "job": tipo de trabajo (categórica: "admin.", "unknown", "unemployed", "management", "housemaid", "entrepreneur", "student", "blue-collar","self-employed", "retired", "technician", "services")
3. "marital": estado civil (categórica: "married", "divorced", "single")
4. "education": nivel educativo (categórica: "unknown", "secondary", "primary", "tertiary")
5. "default": si dejó de pagar sus obligaciones (categórica: "yes", "no")
6. "balance": saldo promedio anual en euros (numérica)
7. "housing": ¿tiene o no crédito hipotecario? (categórica: "yes", "no")
8. "loan": ¿tiene créditos de consumo? (categórica: "yes", "no")
9. "contact": medio a través del cual fue contactado (categórica: "unknown", "telephone", "cellular")
10. "day": último día del mes en el que fue contactada (numérica)
11. "month": último mes en el que fue contactada (categórica: "jan", "feb", "mar", ..., "nov", "dec")
12. "duration": duración (en segundos) del último contacto (numérica)
13. "campaign": número total de veces que fue contactada durante la campaña (numérica)
14. "pdays": número de días transcurridos después de haber sido contactado antes de la campaña actual (numérica. -1 indica que no fue contactado previamente)
15. "previous": número de veces que ha sido contactada antes de esta campaña (numérica)
16. "poutcome": resultado de la campaña de marketing anterior (categórica: "unknown", "other", "failure", "success")
17. "y": categoría ¿el cliente se suscribió a un depósito a término? (categórica: "yes", "no")

#3. Una primera mirada al dataset

In [32]:
# Importar librerías
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [33]:
# Lectura

ruta = "dataset_banco.csv"
data = pd.read_csv(ruta)
pd.options.mode.chained_assignment = None

In [34]:
print(data.shape)
data.head()

(45215, 17)


Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,58,management,married,tertiary,no,2143.0,yes,no,unknown,5,may,261.0,1,-1.0,0,unknown,no
1,44,technician,single,secondary,no,29.0,yes,no,unknown,5,may,151.0,1,-1.0,0,unknown,no
2,33,entrepreneur,married,secondary,no,2.0,yes,yes,unknown,5,may,76.0,1,-1.0,0,unknown,no
3,47,blue-collar,married,unknown,no,1506.0,yes,no,unknown,5,may,92.0,1,-1.0,0,unknown,no
4,33,unknown,single,unknown,no,1.0,no,no,unknown,5,may,198.0,1,-1.0,0,unknown,no


In [35]:
# Veamos las variables categóricas y las numéricas
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45215 entries, 0 to 45214
Data columns (total 17 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   age        45215 non-null  int64  
 1   job        45213 non-null  object 
 2   marital    45214 non-null  object 
 3   education  45214 non-null  object 
 4   default    45215 non-null  object 
 5   balance    45213 non-null  float64
 6   housing    45215 non-null  object 
 7   loan       45215 non-null  object 
 8   contact    45215 non-null  object 
 9   day        45215 non-null  int64  
 10  month      45215 non-null  object 
 11  duration   45214 non-null  float64
 12  campaign   45215 non-null  int64  
 13  pdays      45214 non-null  float64
 14  previous   45215 non-null  int64  
 15  poutcome   45215 non-null  object 
 16  y          45215 non-null  object 
dtypes: float64(3), int64(4), object(10)
memory usage: 5.9+ MB


#4. Limpieza

Realizaremos el proceso de limpieza teniendo en cuenta las situaciones más comunes:

1. Datos faltantes en algunas celdas
2. Columnas irrelevantes (que no responden al problema que queremos resolver)
3. Registros (filas) repetidos
4. Valores extremos (*outliers*) en el caso de las variables numéricas. Se deben analizar en detalle pues no necesariamente la solución es eliminarlos
5. Errores tipográficos en el caso de las variables categóricas

Al final de este proceso de limpieza deberíamos tener un set de datos **íntegro**, listo para la fase de Análisis Exploratorio.

## 4.1 Datos faltantes

Comenzamos a ver que los datos no están completos, pues no todas las columnas tienen la misma cantidad de registros.

El número total de registros debería ser 45.215. Sin embargo columnas como "job", "marital", "education", "balance", "duration" y "pdays".

Por ser tan pocos los datos  faltantes optaremos por eliminar las filas correspondientes:

In [36]:
len(data)

45215

In [37]:
data.isna().sum()

age          0
job          2
marital      1
education    1
default      0
balance      2
housing      0
loan         0
contact      0
day          0
month        0
duration     1
campaign     0
pdays        1
previous     0
poutcome     0
y            0
dtype: int64

In [38]:
data = data.dropna()
len(data)

45207

In [39]:
data.isna().sum()

age          0
job          0
marital      0
education    0
default      0
balance      0
housing      0
loan         0
contact      0
day          0
month        0
duration     0
campaign     0
pdays        0
previous     0
poutcome     0
y            0
dtype: int64

##4.2 Columnas irrelevantes

Una columna irrelevante puede ser:

- **Una columna que no contiene información relevante para el problema que queremos resolver**. Por ejemplo en este caso podría ser una columna que no guarde relación con el posible perfil del cliente (deporte favorito, hobbies, comida favorita, etc.)
- **Una columna categórica pero con un sólo nivel**. Por ejemplo si en la columna "job" solo tuviésemos el nivel "unknown".
- **Una columna numérica pero con un sólo valor**. Por ejemplo si en la columna "edad" todos los vlaores fuesen iguales a 50.
- **Columnas con información redundante**. Por ejemplo si además de las columnas "month" y "day" tuviésemos la columna "month-day", resultado de combinar las dos anteriores.

Si tenemos la duda de si alguna columna puede ser relevante o no lo mejor es dejarla (y más adelante en posteriores etapas podremos darnos cuenta de si se debe preservar o no).

En este caso todas las columnas pueden resultar relevantes, pero debemos verificar que no haya columnas categóricas con un sólo nivel, o columnas numéricas con un sólo valor:

Todas las columnas categóricas tienen más de 1 subnivel. No eliminaremos ninguna.

Verifiquemos lo que ocurre con las columnas numéricas:

Todas las columnas numéricas tienen desviaciones estándar ("std") diferentes de cero, lo que indica que no tienen un único valor.

Preservaremos todas las columnas numéricas.

In [40]:
for i in data.columns:
    print(f'Variable {i}:')
    print(data[i].value_counts())

Variable age:
32     2083
31     1995
33     1971
34     1930
35     1894
       ... 
399       1
311       1
776       1
332       1
490       1
Name: age, Length: 85, dtype: int64
Variable job:
blue-collar       9730
management        9454
technician        7597
admin.            5166
services          4153
retired           2263
self-employed     1578
entrepreneur      1487
unemployed        1303
housemaid         1240
student            938
unknown            288
administrative       3
Management           2
MANAGEMENT           2
Self-employed        1
Services             1
Retired              1
Name: job, dtype: int64
Variable marital:
married     27211
single      12786
divorced     5196
div.            7
Single          4
DIVORCED        3
Name: marital, dtype: int64
Variable education:
secondary    23192
tertiary     13301
primary       6848
unknown       1855
SECONDARY        3
Primary          2
sec.             2
UNK              2
Secondary        1
Tertiary         1
Na

In [41]:
data['date_concat'] = data['day'].astype(str) + '__' + data['month']
data = data.drop(['day', 'month'], axis=1)

##4.3 Filas repetidas

In [42]:
data.drop_duplicates(inplace=True)

##4.4 *Outliers* en las variables numéricas

No siempre se deben eliminar los *outliers* porque dependiendo de la variable numérica analizada estos pueden contener información importante.


In [43]:
for i in data.index:
    if data['pdays'][i] == -1:
        data['pdays'][i] = 'no contactado'

data['pdays'].unique()

array(['no contactado', 187.0, 151.0, 166.0, 91.0, 86.0, 143.0, 147.0,
       89.0, 140.0, 176.0, 101.0, 174.0, 170.0, 167.0, 195.0, 165.0,
       129.0, 188.0, 196.0, 172.0, 118.0, 119.0, 104.0, 171.0, 117.0,
       164.0, 132.0, 131.0, 123.0, 159.0, 186.0, 111.0, 115.0, 116.0,
       173.0, 178.0, 110.0, 152.0, 96.0, 103.0, 150.0, 175.0, 193.0,
       181.0, 185.0, 154.0, 145.0, 138.0, 126.0, 180.0, 109.0, 158.0,
       168.0, 97.0, 182.0, 127.0, 130.0, 194.0, 125.0, 105.0, 102.0, 26.0,
       179.0, 28.0, 183.0, 155.0, 112.0, 120.0, 137.0, 124.0, 190.0,
       113.0, 162.0, 134.0, 169.0, 189.0, 8.0, 144.0, 191.0, 184.0, 177.0,
       5.0, 99.0, 133.0, 93.0, 92.0, 10.0, 100.0, 156.0, 198.0, 106.0,
       153.0, 146.0, 128.0, 7.0, 121.0, 160.0, 107.0, 90.0, 27.0, 197.0,
       136.0, 139.0, 122.0, 157.0, 149.0, 135.0, 30.0, 114.0, 98.0, 192.0,
       163.0, 34.0, 95.0, 141.0, 31.0, 199.0, 94.0, 108.0, 29.0, 268.0,
       247.0, 253.0, 226.0, 244.0, 239.0, 245.0, 204.0, 231.0, 238.0,
 

In [44]:
import numpy as np

for i in data.index:
    if data['previous'][i] == 275:
        data['previous'][i] = np.nan
    if data['age'][i] > 110:
        data['age'][i] = np.nan

In [45]:
for i in data.index:
    if data['duration'][i] < 0:
        data['duration'][i] = np.nan

In [46]:
data.dropna(inplace=True)

##4.5 Errores tipográficos en variables categóricas

En una variable categórica pueden aparecer sub-niveles como "unknown" y "UNK" que para nosotros son equivalentes pero que para nuestro programa parecerían diferentes.

Se deben unificar estos sub-niveles

In [47]:
for i in data.index:
    if (data['job'][i] == 'Management') or (data['job'][i] == 'MANAGEMENT'):
        data['job'][i] = 'management'
    elif (data['job'][i] == 'Services'):
        data['job'][i] = 'services'
    elif (data['job'][i] == 'Retired'):
        data['job'][i] = 'retired'
    elif (data['job'][i] == 'Self-employed'):
        data['job'][i] = 'self-employed'
    elif (data['job'][i] == 'administrative'):
        data['job'][i] = 'admin.'

In [48]:
data['job'].value_counts()

blue-collar      9727
management       9456
technician       7593
admin.           5168
services         4152
retired          2263
self-employed    1578
entrepreneur     1487
unemployed       1303
housemaid        1240
student           937
unknown           288
Name: job, dtype: int64

In [49]:
for i in data.index:
    if data['marital'][i] == 'div.':
        data['marital'][i] = 'divorced'
    elif (data['marital'][i] == 'Single'):
        data['marital'][i] = 'single'
    elif (data['marital'][i] == 'DIVORCED'):
        data['marital'][i] = 'divorced'

In [50]:
data['marital'].value_counts()

married     27203
single      12785
divorced     5204
Name: marital, dtype: int64

In [51]:
for i in data.index:
    if data['education'][i] == 'SECONDARY.':
        data['education'][i] = 'secondary'
    elif (data['education'][i] == 'SECONDARY'):
        data['education'][i] = 'secondary'
    elif (data['education'][i] == 'Primary'):
        data['education'][i] = 'primary'
    elif (data['education'][i] == 'sec.'):
        data['education'][i] = 'secondary'
    elif (data['education'][i] == 'UNK'):
        data['education'][i] = 'unknown'
    elif (data['education'][i] == 'Secondary'):
        data['education'][i] = 'secondary'
    elif (data['education'][i] == 'Tertiary'):
        data['education'][i] = 'tertiary'

In [52]:
data['education'].value_counts()

secondary    23189
tertiary     13298
primary       6848
unknown       1857
Name: education, dtype: int64

In [53]:
for i in data.index:
    if (data['loan'][i] == 'No') or (data['loan'][i] == 'NO'):
        data['loan'][i] = 'no'
    elif (data['loan'][i] == 'Yes') or (data['loan'][i] == 'YES'):
        data['loan'][i] = 'yes'

In [54]:
data['loan'].value_counts()

no     37950
yes     7242
Name: loan, dtype: int64

In [55]:
for i in data.index:
    if data['contact'][i] == 'phone':
        data['contact'][i] = 'telephone'
    elif data['contact'][i] == 'mobile':
        data['contact'][i] = 'cellular'

In [56]:
data['contact'].value_counts()

cellular     29276
unknown      13012
telephone     2904
Name: contact, dtype: int64

In [57]:
data[data['duration'] < 0] 

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,duration,campaign,pdays,previous,poutcome,y,date_concat


In [58]:
for i in data.index:
    if data['pdays'][i] == -1:
        data['pdays'][i] = 'no contactado'

In [59]:
data['pdays'].value_counts()

no contactado    36941
182.0              167
92.0               147
91.0               126
183.0              126
                 ...  
449.0                1
452.0                1
648.0                1
595.0                1
530.0                1
Name: pdays, Length: 559, dtype: int64

In [60]:
for i in data.index:
    if data['poutcome'][i] == 'Success':
        data['poutcome'][i] = 'success'
    elif (data['poutcome'][i] == 'UNK'):
        data['poutcome'][i] = 'unknown'

## Conclusiones

In [61]:
#data.to_csv('dataset_banco_entregable_clean.csv', index=False)

Realizar una buena limpieza de datos es fundamental antes de llevar a cabo cualquier análisis o estudio por varias razones importantes:


1. Calidad de los resultados: Los datos limpios y de alta calidad conducen a resultados más precisos y confiables. Eliminar datos incompletos, incorrectos o duplicados ayuda a evitar que estos afecten negativamente a tus conclusiones y decisiones.

2. Confianza en los resultados: Una limpieza adecuada de los datos aumenta la confianza en los resultados del análisis. Cuando los datos están limpios, los resultados son más fáciles de interpretar y explicar, lo que aumenta la credibilidad del estudio.
   
3. Mejora del rendimiento del modelo: En el caso del aprendizaje automático y la inteligencia artificial, los modelos entrenados con datos limpios y bien preparados tienden a tener un mejor rendimiento y generalización en datos nuevos y no vistos.
   
4. Eficiencia del proceso de análisis: La limpieza de datos previa permite ahorrar tiempo y recursos durante el proceso de análisis. Al eliminar datos irrelevantes o incorrectos desde el principio, se reduce la necesidad de volver atrás y corregir errores más adelante en el proceso.
   
5. Reducción de sesgos: La limpieza de datos también puede ayudar a reducir los sesgos que podrían introducirse en el análisis debido a datos incorrectos o incompletos. Al asegurarse de que los datos sean representativos y precisos, se reduce la posibilidad de que el análisis esté sesgado.
   

En resumen, la limpieza de datos es un paso crítico en cualquier proyecto de análisis o estudio. Asegura la calidad, confiabilidad y eficiencia de los resultados, lo que lleva a conclusiones más sólidas y decisiones más informadas.








Por todo esto, las medidas que hemos tomado frente a este dataset han sido estas:

En cuanto a las conclusiones propias de este análisis, hemos eliminado del dataset la variable default, ya que poseía un gran número de NAs y no nos era de mucha utilidad.

Hemos eliminado todos los valores faltantes que teníamos a través de la eliminación de toda observación que poseyera alguno.

Nos hemos encargado también de limpiar todos los errores ortográficos que se han visto presentes en las distintas variables del dataset, dejando únicamente un único label por cada nivel de cada una de ellas.

Hemos eliminado algunos de los valores más extremos de las variables numéricas, los cuales, creemos que no era posible de que fueran correctos.