# Marketing Bancario
---

### Introducción

El objetivo del problema es predecir (clasificar) en base a 16 atributos relacionado son la persona si la misma, acepta el producto bancario de plazo fijo.

### Atributos
Como se comento en el parrafo anterior, el dataset cuenta con **16 atributos** sin incluir a la clase de prediccion y 45211 instancias. Ahora veremos una tabla **enumerandolos** así también con su **tipo de dato** y **descripción**.

|  Atributo 	| Tipo de Dato 	|  Descripción      	|
|:---------	|:------------|:--------------------------------------|
| age       	| Númerico     	| Edad de la Persona.                                                                                      	|
| job       	| Categórico   	| Tipo de Trabajo.                                                                                         	|
| marital   	| Categórico   	| Estado Matrimonial.                                                                                      	|
| education 	| Categórico   	| Tipo de Educación.                                                                                       	|
| default   	| Binario      	| Tiene algún crédito incumplido.                                                                          	|
| balance   	| Númerico     	| Saldo medio anual (euros).                                                                               	|
| housing   	| Númerico     	| Tiene algún préstamo hipotecario.                                                                        	|
| loan      	| Binario      	| Tiene algún préstamo personal.                                                                           	|
| contact   	| Categórico   	| Tipo de contacto (comunicación).                                                                         	|
| day       	| Númerico     	| Ultimo día del contacto del mes.                                                                         	|
| month     	| Categórico   	| Ultimo día del contacto del año.                                                                         	|
| duration  	| Númerico     	| duración del ultimo contacto (segundos).                                                                 	|
| campaign  	| Númerico     	| Cantidad de contactos para este cliente durante la campaña.                                              	|
| pdays     	| Númerico     	| Número de días que pasaron desde que el cliente fue contactado por ultima vez desde la campaña anterior. 	|
| previous  	| Númerico     	| Cantidad de contactos para este cliente antes de la presente campaña.                                    	|
| poutcome  	| Categórico   	| Resultado de Marketing de la campaña  anterior.                                                          	|
| Class     	| Binario      	| El cliente se ha suscripto a un plan de deposito a plazo fijo.|

### Atributos Faltantes
Como primer paso vamos a cargar nuestro archivo y verificar si tenemos algun atributo faltante en nuestro dataset.

In [5]:
#Importamos la librerias de Pandas.
import pandas as pd

#cargamos nuestro dataset
ds = pd.read_csv("../data/bank-full.csv")

print(ds.head())

  age;"job";"marital";"education";"default";"balance";"housing";"loan";"contact";"day";"month";"duration";"campaign";"pdays";"previous";"poutcome";"y"
0  58;"management";"married";"tertiary";"no";2143...                                                                                                  
1  44;"technician";"single";"secondary";"no";29;"...                                                                                                  
2  33;"entrepreneur";"married";"secondary";"no";2...                                                                                                  
3  47;"blue-collar";"married";"unknown";"no";1506...                                                                                                  
4  33;"unknown";"single";"unknown";"no";1;"no";"n...                                                                                                  


### Analisis de los datos
---
El dataset cuenta con 15 atributos incluyendo la variable Objetivo, esta dividio en un dos partes para el proposito de entrenamiento y el otro para test. La cantidad de instancias que posse cada conjunto es de
32560 y de 16281 respectivamente. Examinando los dataset podemos ver que los mismos no tiene los encabezados en la data, por lo que debemos leer toda documentación adjunta para poder saber los nombres de cada atributo y a que columna corresponde.

In [2]:
#Vamos a leer nuestro archivo, para ello utilizaremos una libreria muy conocida llamada pandas.
import pandas as pd

#Leemos nuestro archivo para entrenamiento
ds_training=pd.read_csv("./data/adult.data")
print("Training data instances count:\t",ds_training.shape[0])

FileNotFoundError: File b'./data/adult.data' does not exist

Una vez que hemos leido toda la información y sabemos cuales son los cabezales de nuestro conjunto de datos se los agregaremos.

In [None]:
#Estos son los headers de los datos
headers=['AGE','WORKCLASS','FNLWGT','EDUCATION','EDUCATION-NUM','MARITAL-STATUS','OCCUPATION','RELATIONSHIP','RACE','SEX','CAPITAL-GAIN','CAPITAL-LOSS','HOURS-PER-WEEK','NATIVE-COUNTRY','CLASS']

#Se lo agregamos al dataset
ds_training.columns=headers

#Chequeamos que el header fue agregado.
dataset=ds_training

dataset.head()

Como podemos **Education-NUM** y **EDUCATION** repesentan la misma informacion de diferente manera, por lo que podemos prescindir de una, en este caso eliminaremos la columna **EDUCATION** del dataset.

En cuanto a la variable **FNLWGT** es una apreciación subjetiva de cuantas personas afecta el censo ,segun las personas que realizan el censo, en este caso vamos a eliminarla. 

In [None]:
dataset = dataset.drop(['FNLWGT','EDUCATION'],  axis=1)
dataset.head()

#### Tipos de datos
---
Vamos a revisar los tipos de datos que tiene nuestro dataset.
Como podemos ver muchos de nuestros atributos son polinomiales, para poder utilizarlos en una regresión logistica,
debemos aplicarles algun tipo de transformacion de **Polinomial a Númerico**. Pero antes debemos hacer un chequeo de datos faltantes.

In [None]:
dataset.dtypes

#### Datos Faltantes
---
Una vez que agregamos los headers al dataset comenzaremos a revisar mas en profundidad los datos, comenzaremos por cheuqear los datos faltantes. En el caso de este dataset los datos faltantes son marcado con la cadena **" ?"**, hagamos un recuento de estos.
Para ellos **reemplazaremos** la cadena **" ?"** por el valor **NaN de numpy**, esto lo hacemos ya que **pandas nos ofrece algunas funciones para hacer el recuento de estos valores**.

In [None]:
import numpy as np
dataset=dataset.replace(" ?", value=np.nan)
dataset.isna().sum()

ahora vamos a ver que valores contienen dichos atributos, **agrupandolos** por tipo.

In [None]:
print(dataset.groupby(['WORKCLASS']).size(),"\n")

print(dataset.groupby(['OCCUPATION']).size(),"\n")

print(dataset.groupby(['NATIVE-COUNTRY']).size())

Podemos imputar valores utilizando sklearn, en este caso eliminaremos estas intancias.

In [None]:
dataset=dataset.dropna()
dataset.isna().sum()

# Detección de Outliers

In [None]:
import seaborn as sbn
import matplotlib.pyplot as plt
fig, ax = plt.subplots(figsize=(15,5))
sbn.boxplot(ax=ax, data=dataset,orient="h")

Vamos a obtener el percentil 0.98 de cada atributo de nuestro dataset

In [None]:
dataset.quantile([0.25,0.5,0.75,0.95])
dataset=dataset[dataset['AGE']< 68]
dataset=dataset[dataset['EDUCATION-NUM']< 15]
dataset=dataset[dataset['CAPITAL-GAIN']< 14344]
dataset=dataset[dataset['CAPITAL-LOSS']< 1902]
dataset=dataset[dataset['HOURS-PER-WEEK']< 70]


Vamos a verificar la correlacion entre los atributos y a graficar los mismos.

# Correlación entre los atributos

In [None]:
correlationMatrix=dataset.corr()
mask = np.zeros_like(correlationMatrix)
mask[np.triu_indices_from(mask)] = True
with sbn.axes_style("white"):
    ax = sbn.heatmap(correlationMatrix, mask=mask,cmap="Greens",annot=True)

# Conversión de datos
Ahora vamos a transformar los atributos categoricos a númericos.

In [None]:
dataset=pd.get_dummies(data=dataset,columns=['MARITAL-STATUS','RELATIONSHIP','RACE','SEX','WORKCLASS','OCCUPATION','NATIVE-COUNTRY','CLASS'],drop_first=True)

In [None]:
dataset = dataset.rename(columns={'CLASS_ >50K': 'CLASS'})
dataset.head()

# Normalizacion de los datos

In [None]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler(copy=True, feature_range=(0, 1))
scaler.fit(dataset)

#Obtengo las columnas 
columns=dataset.columns;
normalizedData=scaler.transform(dataset)

#Obtengo un nuevo DataFrame a aprtir de los datos Normalizados entre 0 y 1
dataset=pd.DataFrame(columns=columns,data=normalizedData)
dataset.head()

# Entrenamiento y Validación del Modelo de Regresión Logística

Separo los atributos de la variable objetivo, para el entrenamiento del modelo.

In [None]:
from sklearn.linear_model import LogisticRegression

X= np.array(dataset.drop(['CLASS'],1))
Y = np.array(dataset['CLASS'])

model = LogisticRegression()
model.fit(X,Y)

Ahora verificamos la precisión de nuestro modelo.

## Validación del modelo

In [None]:
from sklearn import model_selection
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report

In [None]:
validation_size = 0.30
seed = 2018
X_train, X_validation, Y_train, Y_validation = model_selection.train_test_split(X,Y, test_size=validation_size, random_state=seed)
kfold = model_selection.KFold(n_splits=10, random_state=seed)
results = model_selection.cross_val_score(model, X_train,Y_train, cv=kfold, scoring='accuracy')
print("%s: %f (%f)" % ("Regresión Logística",results.mean(), results.std()))

In [None]:
predictions = model.predict(X_validation)
print(accuracy_score(Y_validation, predictions))

Ahora veremos la performance de nuestro modelo, mediante el reporte de clasificacion

In [None]:
print(classification_report(Y_validation, predictions))