# PROYECTO: CLIENTES POTENCIALES PARA EL BANCO SANTANDER 🏦 💳

### Tipo de proyecto: Limpieza de datos con Python y Pandas  

# 1. El Problema a Resolver 🎯

Una entidad bancaria contrata a una empresa de marketing encargada de contactar por telefono a clientes potenciales para determinar si están interesados o no en adquirir un certificado de depósito a término con el banco. 

A través de este proyecto queremos determinar el perfil de los clientes potenciales con mayor potencial de conversión. 

# 2. El Set de Datos (Dataset) 📉
 
La información recolectada por la empresa de marketing se encuentra en un archivo CSV (dataset_to_be_cleaned.csv) con 45,215 filas y 17 columnas. 

Cada registro contiene 16 caracteristicas (las primeras 16 columnas) y una categoría ("yes" o "no" dependiendo de si la persona está o no interesada en adquirir el producto). 

Las columnas son: 

(VARIABLES)
1. **age**: edad (numérica)
2. **job**: tipo de trabajo (categórica: "admin.", "unknown", "unemployed", "management", "housemaid", "entrepreneur", "student", "blue-collar","self-employed", "retired", "technician", "services")
3. **marital**: estado civil (categórica: "married", "divorced", "single")
4. **education**: nivel educativo (categórica: "unknown", "secondary", "primary", "tertiary")
5. **default**: si dejó de pagar sus obligaciones (categórica: "yes", "no")
6. **balance**: saldo promedio anual en euros (numérica)
7. **housing**: ¿tiene o no crédito hipotecario? (categórica: "yes", "no")
8. **loan**: ¿tiene créditos de consumo? (categórica: "yes", "no")
9. **contact**: medio a través del cual fue contactado (categórica: "unknown", "telephone", "cellular")
10. **day**: último día del mes en el que fue contactada (numérica)
11. **month**: último mes en el que fue contactada (categórica: "jan", "feb", "mar", ..., "nov", "dec")
12. **duration**: duración (en segundos) del último contacto (numérica)
13. **campaign**: número total de veces que fue contactada durante la campaña (numérica)
14. **pdays**: número de días transcurridos después de haber sido contactado antes de la campaña actual (numérica. -1 indica que no fue contactado previamente)
15. **previous**: número de veces que ha sido contactada antes de esta campaña (numérica)
16. **poutcome**: resultado de la campaña de marketing anterior (categórica: "unknown", "other", "failure", "success")
17. **y**: categoría ¿el cliente se suscribió a un depósito a término? (categórica: "yes", "no")

# 3. Primera Aproximación al Set de Datos 👀

Primero, importamos las librerias que necesitamos:

In [8]:
#Importar librerías

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [17]:
#Luego leemos el set de datos, desde donde lo tenemos guardado

from google.colab import drive
drive.mount('/gdrive')

ruta= "/gdrive/MyDrive/Videos/2022-10-21/dataset_to_be_cleaned.csv" #dirección o nombre para llegar al documento que va a leer.

data = pd.read_csv(ruta)  #Ahora data apunta directo al Set de Datos

ModuleNotFoundError: No module named 'google'

In [13]:
data = pd.read_csv("dataset_to_be_cleaned.csv") #Aquí declaramos la variable data para que apunte al Set de Datos

In [20]:
print(data.shape) # Esto me va a decir cuántas (filas,columnas) tiene mi Set de Datos

data.head() # Esto me va a mostrar las primeras 5 filas de mi Set de Datos

(45215, 17)


Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,58,management,married,tertiary,no,2143.0,yes,no,unknown,5,may,261.0,1,-1.0,0,unknown,no
1,44,technician,single,secondary,no,29.0,yes,no,unknown,5,may,151.0,1,-1.0,0,unknown,no
2,33,entrepreneur,married,secondary,no,2.0,yes,yes,unknown,5,may,76.0,1,-1.0,0,unknown,no
3,47,blue-collar,married,unknown,no,1506.0,yes,no,unknown,5,may,92.0,1,-1.0,0,unknown,no
4,33,unknown,single,unknown,no,1.0,no,no,unknown,5,may,198.0,1,-1.0,0,unknown,no


In [16]:
df = pd.read_csv("dataset_to_be_cleaned.csv")
df

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,58,management,married,tertiary,no,2143.0,yes,no,unknown,5,may,261.0,1,-1.0,0,unknown,no
1,44,technician,single,secondary,no,29.0,yes,no,unknown,5,may,151.0,1,-1.0,0,unknown,no
2,33,entrepreneur,married,secondary,no,2.0,yes,yes,unknown,5,may,76.0,1,-1.0,0,unknown,no
3,47,blue-collar,married,unknown,no,1506.0,yes,no,unknown,5,may,92.0,1,-1.0,0,unknown,no
4,33,unknown,single,unknown,no,1.0,no,no,unknown,5,may,198.0,1,-1.0,0,unknown,no
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
45210,51,technician,married,tertiary,no,825.0,no,no,cellular,17,nov,977.0,3,-1.0,0,unknown,yes
45211,71,retired,divorced,primary,no,1729.0,no,no,cellular,17,nov,456.0,2,-1.0,0,unknown,yes
45212,72,retired,married,secondary,no,5715.0,no,no,cellular,17,nov,1127.0,5,184.0,3,success,yes
45213,57,blue-collar,married,secondary,no,668.0,no,no,telephone,17,nov,508.0,4,-1.0,0,unknown,no


In [27]:
# Veamos las variables numéricas y las categóricas

data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 45207 entries, 0 to 45214
Data columns (total 17 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   age        45207 non-null  int64  
 1   job        45207 non-null  object 
 2   marital    45207 non-null  object 
 3   education  45207 non-null  object 
 4   default    45207 non-null  object 
 5   balance    45207 non-null  float64
 6   housing    45207 non-null  object 
 7   loan       45207 non-null  object 
 8   contact    45207 non-null  object 
 9   day        45207 non-null  int64  
 10  month      45207 non-null  object 
 11  duration   45207 non-null  float64
 12  campaign   45207 non-null  int64  
 13  pdays      45207 non-null  float64
 14  previous   45207 non-null  int64  
 15  poutcome   45207 non-null  object 
 16  y          45207 non-null  object 
dtypes: float64(3), int64(4), object(10)
memory usage: 6.2+ MB


Ahí ya nos dice cuáles son numéricas (int64, float64) y cuáles son categóricas (object). 

También nos dice cuántas son las celdas totales llenadas por columna.

# 4. Limpieza de Datos 🧹🧼🪣 🧽. 🫧🧼

Realizaremos el proceso de limpieza teniendo en cuenta las situaciones más comunes de estos casos:
1. Datos faltantes en algunas celdas.
2. Columnas irrelevantes (que no responden al problema que queremos resolver)
3. Registros (filas) repetidos.
4. Valores extremos (outliers) en el caso de las variables numéricas. Nota: se deben analizar en detalle pues no necesariamente la solucion es eliminarlos.
5. Errores tipográficos en el caso de las variables categóricas.

Al final del proceso de limpieza debemos tener un set de datos **íntegro**, listo para la fase de EDA . EDA = Exploratory Data Analisis. 

# 4.1 Limpieza de Datos: Datos Faltantes

Para saber si todas las celdas estan completas, revisaremos si cada columna tiene la misma cantidad de registros. 

**45,215 es el número total de registros del Set de Datos.** 

Columnas como "job", "marital", "education", "balance", "duration" y "pdays" tienen menos que el número total de registros, eso significa que tienen datos faltantes (celdas vacías). 

Por ser tan pocos los datos faltantes en comparación con el número total de registros (45,215) optaremos por simplemente eliminar las filas correspondientes a esas celdas vacías/datos faltantes. 

In [30]:
# Con esto se borraron las filas completas a las que les faltaba alguna celda. Así pasamos de 45,215 registros totales a 45,207 totales (sin Datos Faltantes)

data.dropna(inplace=True)
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 45207 entries, 0 to 45214
Data columns (total 17 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   age        45207 non-null  int64  
 1   job        45207 non-null  object 
 2   marital    45207 non-null  object 
 3   education  45207 non-null  object 
 4   default    45207 non-null  object 
 5   balance    45207 non-null  float64
 6   housing    45207 non-null  object 
 7   loan       45207 non-null  object 
 8   contact    45207 non-null  object 
 9   day        45207 non-null  int64  
 10  month      45207 non-null  object 
 11  duration   45207 non-null  float64
 12  campaign   45207 non-null  int64  
 13  pdays      45207 non-null  float64
 14  previous   45207 non-null  int64  
 15  poutcome   45207 non-null  object 
 16  y          45207 non-null  object 
dtypes: float64(3), int64(4), object(10)
memory usage: 6.2+ MB


# 4.2 Limpieza de Datos: Columnas Irrelevantes

Una columna irrelevante puede ser: 

* **Una columna que no contiene información relevante para el problema que queremos resolver.**
      Por ejemplo: una columna que tenga el deporte favorito, hobbies, comida favorita, etc.
* **Una columna categórica pero con un sólo nivel**
* **Una columna numérica pero con un sólo valor**
*  **Columnas de invormación redundante.**

Importante: Si tenemos duda de si una colmna uede ser relevante o no, lo mejor es dejarla. (En etapas posteriores podrémos darnos cuenta de si debe conservarse o es irrelevante).

En este proyecto todas las columnas nos resultan relevantes. 
Debemos verificar si o hay columnas categóricas con un sólo nivel/categoría, o columnas numéricas con un sólo valor: 

In [35]:
# Haremos un conteo de los niveles en las diferentes columnas categóricas

cols_cat =['job','marital','education','default','housing','loan','contact','month','poutcome','y']

for col in cols_cat: 
    print(f'Columna {col}: {data[col].nunique()} subniveles')

Columna job: 18 subniveles
Columna marital: 6 subniveles
Columna education: 10 subniveles
Columna default: 2 subniveles
Columna housing: 2 subniveles
Columna loan: 6 subniveles
Columna contact: 5 subniveles
Columna month: 12 subniveles
Columna poutcome: 6 subniveles
Columna y: 2 subniveles


Como todas las columnas categóricas tienen más de 1 subnivel, no eliminaremos ninguna. Ninguna cae en la categoría de "Columna Irrelevante".

Ahora, verifiquemos lo que ocurre con las columnas numéricas: