# Explore here

# Campaña de Marketing Bancario


In [13]:
# Librería para la declaración y uso de Data Frames:
import pandas as pd

# Librería para realizar operaciones matemáticas: 
import numpy as np

# Librería para visualizar datos estadísticos: 
import seaborn as sns

# Librería para trazar gráficos:
import matplotlib.pyplot as plt

# Librería para el escalado de varibles, asegurando mismo rango (0 a 1):
from sklearn.preprocessing import MinMaxScaler

# Librería codificar variables categóricas a numéricas:
from sklearn.preprocessing import LabelEncoder

# Librería para generar un modelo de Regresión Lineal: 
import statsmodels.api as sm

# Librería para poder realizar la partición del conjunto de datos:
from sklearn.model_selection import train_test_split

# Librería para generar un modelo XGBoost:
import xgboost as xgb

# Librería para calcular el VIF: 
from statsmodels.stats.outliers_influence import variance_inflation_factor

# Librería para instanciar un escalador normalizado:
from sklearn.preprocessing import StandardScaler

# Librería para el uso de modelos de Regresión Lineal:
from sklearn.linear_model import LinearRegression, LassoCV, RidgeCV

# Librería para utilizar métricas de evaluación de modelos de Machine Learning:
from sklearn.metrics import *

# Librerías para evitar la aparición de muchos Warnings al final del proyecto:
import warnings
from sklearn.exceptions import ConvergenceWarning

# Ignorar las advertencias de convergencia
warnings.filterwarnings("ignore", category=ConvergenceWarning)




### Paso 1.  Lectura de datos.

Lo primero que haremos será leer y guardar en una variable la información para trabajar con ella.

Para ello, se ha guaradado el archivo con todos los datos en la ruta:https://raw.githubusercontent.com/4GeeksAcademy/logistic-regression-project-tutorial/main/bank-marketing-campaign-data.csv y se ha cargado en un Data Frame:

In [14]:
# Importamos el archivo e imprimimos las primeras filas del dataframe para tener una visión rápida del conjunto
data_bank = pd.read_csv(r"https://raw.githubusercontent.com/4GeeksAcademy/logistic-regression-project-tutorial/main/bank-marketing-campaign-data.csv", sep = ";")

# Configuración de pandas para mostrar todas las columnas del DataFrame sin truncarlas al visualizarlo
pd.set_option('display.max_columns', None)

# Se muestran las 5 primeras filas del Data Frame
data_bank.head()

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y
0,56,housemaid,married,basic.4y,no,no,no,telephone,may,mon,261,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
1,57,services,married,high.school,unknown,no,no,telephone,may,mon,149,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
2,37,services,married,high.school,no,yes,no,telephone,may,mon,226,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
3,40,admin.,married,basic.6y,no,no,no,telephone,may,mon,151,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
4,56,services,married,high.school,no,no,yes,telephone,may,mon,307,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no


- Tras haber cargado el DataFrame debemos ver la cantidad de información que contiene. 
- Recurrimos al atributo shape:

In [15]:
print (f" El conjunto de datos cuenta con información de {data_bank.shape[0]} clientes con un total de {data_bank.shape[1]} datos característicos de cada uno de ellos.")

 El conjunto de datos cuenta con información de 41188 clientes con un total de 21 datos característicos de cada uno de ellos.


### Paso 2: Realiza un EDA completo

Es fundamental la realización del EDA para poder identificar patrones, detectar valores atípico y poder eliminar las variables que no sean extrictamente necesarias.


In [16]:
# Resumen conciso del DataFrame:
data_bank.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41188 entries, 0 to 41187
Data columns (total 21 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   age             41188 non-null  int64  
 1   job             41188 non-null  object 
 2   marital         41188 non-null  object 
 3   education       41188 non-null  object 
 4   default         41188 non-null  object 
 5   housing         41188 non-null  object 
 6   loan            41188 non-null  object 
 7   contact         41188 non-null  object 
 8   month           41188 non-null  object 
 9   day_of_week     41188 non-null  object 
 10  duration        41188 non-null  int64  
 11  campaign        41188 non-null  int64  
 12  pdays           41188 non-null  int64  
 13  previous        41188 non-null  int64  
 14  poutcome        41188 non-null  object 
 15  emp.var.rate    41188 non-null  float64
 16  cons.price.idx  41188 non-null  float64
 17  cons.conf.idx   41188 non-null 

No existen valores nulos en ninguna de las 21 columnas

Existen 10 variable numéricas y 11 variables categóricas.

### Paso 2.1 - Análisis de Duplicados y Constantes:
Uno de los puntos críticos a la hora de realizar un análisis, es la existencia de variables / características comunes a todos los clientes, dado que sería información redundante y no aportaría valor al estudio, es decir, el análisis sería el mismo aunque no estuviesen como variables y, por lo tanto, se podría prescindir de ellas.

In [17]:
# Se utiliza el método .nunique() para saber la cantidad de columnas con constantes en el Data Frame:
print(f" Hay un total de {(lambda data_bank: (data_bank.nunique() == 1).sum())(data_bank)} columnas en el Data Frame con un valor constante para todos los clientes.");

# Se imprime el conteo de valores distintos en cada columna:
print (f" \nPara cada columna del Data Frame, se muestran cuántos valores distintos presentan:");
data_bank.nunique()

 Hay un total de 0 columnas en el Data Frame con un valor constante para todos los clientes.
 
Para cada columna del Data Frame, se muestran cuántos valores distintos presentan:


age                 78
job                 12
marital              4
education            8
default              3
housing              3
loan                 3
contact              2
month               10
day_of_week          5
duration          1544
campaign            42
pdays               27
previous             8
poutcome             3
emp.var.rate        10
cons.price.idx      26
cons.conf.idx       26
euribor3m          316
nr.employed         11
y                    2
dtype: int64

A partir del resultado obtenido, se puede observar que no hay ninguna constante en los datos cargados, por lo tanto, no hay que eliminar ninguna columna, de momento.

-

Otro factor determinante a la hora de realizar una limpieza de los datos es detectar si hay datos repetidos, aplicado a este caso, si hay clientes duplicados.

In [20]:
# Se utiliza el método .duplicated() para identificar los valores repetidos dentro del DataFrame:
print(f" Hay un total de {data_bank.duplicated().sum()} clientes duplicados.")

# Al existir duplicados los visualizamos:
duplicados = data_bank.duplicated(keep=False)
filas_duplicadas = data_bank[duplicados]
filas_duplicadas

# Finalmente eliminamos los duplicados:
data_bank = data_bank.drop_duplicates()
data_bank.shape

 Hay un total de 0 clientes duplicados.


(41176, 21)

### Paso 2.2 - Análisis de Nulos:
Uno de los problemas que es habitual encontrarse en el análisis de datos es variables sin valor, nulos.

Es por ello que se deben tratar estos casos para o bien eliminarlos o bien rellenarlos con un valor coherente para cada uno.

En este caso, como vimos en el inicio del punto 2. No existen valores nulos en ninguna de las 21 columnas

### Paso 2.3 - Análisis de Observaciones Influyentes:
En este paso se va a proceder a realizar uno de los puntos clave en el Análisis Exploratorio de Datos, la Identificación de Observaciones Influyentes.

Sin embargo, para poder realizar este paso, es necesario que todas las variables con las que se trabaja sean numéricas.

In [21]:
# Convertimos todas las variables categóricas a numéricas

data_bank["job_n"] = pd.factorize(data_bank["job"])[0]
data_bank["marital_n"] = pd.factorize(data_bank["marital"])[0]
data_bank["education_n"] = pd.factorize(data_bank["education"])[0]
data_bank["default_n"] = pd.factorize(data_bank["default"])[0]
data_bank["housing_n"] = pd.factorize(data_bank["housing"])[0]
data_bank["loan_n"] = pd.factorize(data_bank["loan"])[0]
data_bank["contact_n"] = pd.factorize(data_bank["contact"])[0]
data_bank["month_n"] = pd.factorize(data_bank["month"])[0]
data_bank["day_of_week_n"] = pd.factorize(data_bank["day_of_week"])[0]
data_bank["poutcome_n"] = pd.factorize(data_bank["poutcome"])[0]
data_bank["y_n"] = pd.factorize(data_bank["y"])[0]

# Ahora creamos una lista con todas las variable numéricas (incluyendo las variables categóricas que acabamos de transformar)
num_variables = ["job_n", "marital_n", "education_n", "default_n", "housing_n", "loan_n", "contact_n", "month_n", "day_of_week_n", "poutcome_n",
                 "age", "duration", "campaign", "pdays", "previous", "emp.var.rate", "cons.price.idx", "cons.conf.idx", "euribor3m", "nr.employed", "y_n"]

# Escalado de variables numéricas usando Min-Max Escaler. Así nos aseguramos de que todas las variables estén en el mismo rango (0 a 1)
scaler = MinMaxScaler()
scal_features = scaler.fit_transform(data_bank[num_variables])
data_bank_scal = pd.DataFrame(scal_features, index=data_bank.index, columns=num_variables)



Una vez ya se cuenta con todas las características numéricas, se puede proceder a identificar las observaciones influyentes.

Para ello, en primer lugar es necesario identificar cuál será, de ahora en adelante la variable dependiente, es decir, la variable a predecir y separar tanto esta como todas las relacionadas con ella.

En este caso consideramos como la variable a predecir: 