## Step 1: Problem statement and data collection

In [1]:
import pandas as pd

df = pd.read_csv("https://raw.githubusercontent.com/4GeeksAcademy/logistic-regression-project-tutorial/main/bank-marketing-campaign-data.csv", sep = ";")

df.head(3)

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,...,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y
0,56,housemaid,married,basic.4y,no,no,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
1,57,services,married,high.school,unknown,no,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
2,37,services,married,high.school,no,yes,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no


1. `age`. Edad del cliente (numérico)
2. `job`. Tipo de trabajo (categórico)
3. `marital`. Estado civil (categórico)
4. `education`. Nivel de educación (categórico)
5. `default`. ¿Tiene crédito actualmente? (categórico)
6. `housing`. ¿Tiene un préstamo de vivienda? (categórico)
7. `loan`. ¿Tiene un préstamo personal? (categórico)
8. `contact`. Tipo de comunicación de contacto (categórico)
9. `month`. Último mes en el que se le ha contactado (categórico)
10. `day_of_week`. Último día en el que se le ha contactado (categórico)
11. `duration`. Duración del contacto previo en segundos (numérico)
12. `campaign`. Número de contactos realizados durante esta campaña al cliente (numérico)
13. `pdays`. Número de días que transcurrieron desde la última campaña hasta que fue contactado (numérico)
14. `previous`. Número de contactos realizados durante la campaña anterior al cliente (numérico)
15. `poutcome`. Resultado de la campaña de marketing anterior (categórico)
16. `emp.var.rate`. Tasa de variación del empleo. Indicador trimestral (numérico)
17. `cons.price.idx`. Índice de precios al consumidor. Indicador mensual (numérico)
18. `cons.conf.idx`. Índice de confianza del consumidor. Indicador mensual (numérico)
19. `euribor3m`. Tasa EURIBOR 3 meses. Indicador diario (numérico)
20. `nr.employed`. Número de empleados. Indicador trimestral (numérico)
21. `y`. TARGET. El cliente contrata un depósito a largo plazo o no (categórico)

## Step 2: Exploration and data cleaning

### - 2.1 Summarize DF

In [2]:
# Obtain dimensions

rows, columns = df.shape

print(f"The dimensions of this dataset are: {rows} Rows and {columns} Columns")

The dimensions of this dataset are: 41188 Rows and 21 Columns


In [3]:
# Obtain information about data types and non-null values

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41188 entries, 0 to 41187
Data columns (total 21 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   age             41188 non-null  int64  
 1   job             41188 non-null  object 
 2   marital         41188 non-null  object 
 3   education       41188 non-null  object 
 4   default         41188 non-null  object 
 5   housing         41188 non-null  object 
 6   loan            41188 non-null  object 
 7   contact         41188 non-null  object 
 8   month           41188 non-null  object 
 9   day_of_week     41188 non-null  object 
 10  duration        41188 non-null  int64  
 11  campaign        41188 non-null  int64  
 12  pdays           41188 non-null  int64  
 13  previous        41188 non-null  int64  
 14  poutcome        41188 non-null  object 
 15  emp.var.rate    41188 non-null  float64
 16  cons.price.idx  41188 non-null  float64
 17  cons.conf.idx   41188 non-null 

In [4]:
# Check null values

null_var = df.isnull().sum().loc[lambda x: x > 0] # Number of nulls in each variable.

num_of_null_var = len(null_var) # Number of variables with almost 1 null.

print(f"{null_var}\nAnd the number of null variables are {num_of_null_var}")

Series([], dtype: int64)
And the number of null variables are 0



- ### 2.2 Eliminate duplicates

`falta poner que son los duplicados`

In [5]:
# Obtain the number of duplicate values in our dataset

num_duplicate_values = df.duplicated().sum()

print(f"The number of duplicate values in the dataset is {num_duplicate_values}")

The number of duplicate values in the dataset is 12


In [None]:
# Hacemos una copia del dataset para trabajar sobre él y no dañar el original
# Dataset copy
filt_df = df.copy()

if num_duplicate_values:

    filt_df = filt_df.drop_duplicates()

print(filt_df.shape)

filt_df.head(3)


(41176, 21)


Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,...,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y
0,56,housemaid,married,basic.4y,no,no,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
1,57,services,married,high.school,unknown,no,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
2,37,services,married,high.school,no,yes,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no


In [None]:
# Obtain the number of duplicate values in our ¡FILTERED! dataset

num_duplicate_values = filt_df.duplicated().sum()

print(f"The number of duplicate values in the dataset is {num_duplicate_values}")

The number of duplicate values in the dataset is 0


- ### 2.3 Eliminate irrelevant information

## Step 3: Analysis of univariate variables

- ### 3.1 Analysis of categorical variables

In [37]:
filt_df.dtypes

age                 int64
job                object
marital            object
education          object
default            object
housing            object
loan               object
contact            object
month              object
day_of_week        object
duration            int64
campaign            int64
pdays               int64
previous            int64
poutcome           object
emp.var.rate      float64
cons.price.idx    float64
cons.conf.idx     float64
euribor3m         float64
nr.employed       float64
y                  object
dtype: object

In [None]:
# Esto se puede hacer dependiendo de los datos y sabiendo de antemano que todas las variables categóricas son Dtype = 'object'
categorical_var = []

for column in filt_df: 

    if filt_df[column].dtype == 'object':

        categorical_var.append(column)


print(f"Categorical Variables are:\n{categorical_var}\n\nTotal = {len(categorical_var)}")
    



Categorical Variables are:
['job', 'marital', 'education', 'default', 'housing', 'loan', 'contact', 'month', 'day_of_week', 'poutcome', 'y']

Total = 11
