# AI Saturdays Training Exercise - Bank Classifier
Las campañas de marketing del banco dependen de los datos de los clientes. El tamaño de estos datos es tan grande que es imposible que un analista de datos extraiga buena información que pueda ayudar en el proceso de toma de decisiones.

Los modelos de aprendizaje automático están ayudando completamente en el desempeño de estas campañas. 

## Dataset

Este conjunto de datos está relacionado con las campañas de marketing directo de una institución bancaria portuguesa. Las campañas de marketing se basaron en llamadas telefónicas. A menudo, se requería más de un contacto con el mismo cliente, para poder acceder a si el producto (depósito bancario a plazo) estaría ('sí') o no ('no') suscrito.

El objetivo es predecir si el cliente se suscribirá (sí/no) a un depósito a plazo, construyendo un modelo de clasificación utilizando árboles de decisión.

## Summay of data
### Categorical Variables :
job : admin,technician, services, management, retired, blue-collar, unemployed, entrepreneur, housemaid, unknown, self-employed, student

marital : married, single, divorced

education: secondary, tertiary, primary, unknown

default : yes, no

housing : yes, no

loan : yes, no

deposit : yes, no (Dependent Variable)

contact : unknown, cellular, telephone

month : jan, feb, mar, apr, may, jun, jul, aug, sep, oct, nov, dec

poutcome: unknown, other, failure, success


### Numerical Variables:
age
balance
day
duration
campaign
pdays
previous

In [2]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.cluster import KMeans
from sklearn import datasets
from io import StringIO
from sklearn.tree import export_graphviz
from sklearn.model_selection import train_test_split
from sklearn import tree
from sklearn import metrics
%matplotlib inline

In [4]:
# Crear dataframe a partir de .csv
df = pd.read_csv('bank.csv')

# Mostrar número de filas y columnas del dataframe
print("Filas: " + str(df.shape[0]) + " Cols: " + str(df.shape[1]))

# Mostrar las primeras 10 filas (TO-DO)

Filas: 11162 Cols: 17


In [5]:
# Hallar número de valores únicos en cada columna


In [6]:
# Comprobar la existencia de valores nulos en el dataset


In [7]:
# Mostrar información general del dataframe


In [14]:
# Descripción analítica básica del dataframe


In [16]:
# Distribución de la Edad


### Convertir datos categóricos 

In [None]:
# Hacer una copia primero!!
bank_data = bank.copy()


#### Job

In [None]:
# Explorar Personas que hicieron un depósito Vs Categoría de trabajo
jobs = ['management','blue-collar','technician','admin.','services','retired','self-employed','student',\
        'unemployed','entrepreneur','housemaid','unknown']

for j in jobs:
    print("{:15} : {:5}". format(j, len(bank_data[(bank_data.deposit == "yes") & (bank_data.job ==j)])))

In [17]:
# Diferentes tipos de categorías de trabajo y sus cuentas
bank_data.job.value_counts()


In [None]:
# Combinar trabajos similares en categorías
bank_data['job'] = bank_data['job'].replace(['management', 'admin.'], 'white-collar')
bank_data['job'] = bank_data['job'].replace(['services','housemaid'], 'pink-collar')
bank_data['job'] = bank_data['job'].replace(['retired', 'student', 'unemployed', 'unknown'], 'other')

In [None]:
# New value counts
bank_data.job.value_counts()

#### poutcome

In [None]:
bank_data.poutcome.value_counts()

In [None]:
# Combinar "unknown" y "other" como "other" no es realmente compatible con el "success" o el "failure
bank_data['poutcome'] = bank_data['poutcome'].replace(['other'] , 'unknown')
bank_data.poutcome.value_counts()

#### contact

In [None]:
# Drop 'contact' 
bank_data.drop('contact', axis=1, inplace=True)

#### default

In [None]:
# values for "default" : yes/no
bank_data["default"]
bank_data['default_cat'] = bank_data['default'].map( {'yes':1, 'no':0} )
bank_data.drop('default', axis=1,inplace = True)

#### housing, loan, deposit

In [None]:
# values for "housing" : yes/no


In [None]:
# values for "loan" : yes/no


In [None]:
# values for "deposit" : yes/no


In [18]:
# pdays: número de días que pasaron después de que el cliente fue contactado por última vez de una campaña anterior
# -1 significa que el cliente no fue contactado previamente

print("Customers that have not been contacted before:", len(bank_data[bank_data.pdays==-1]))
print("Maximum values on padys    :", bank_data['pdays'].max())

In [None]:
# El mapa padys=-1 en un valor grande (se usa 10000) para indicar que está tan lejos en el pasado que no tiene efecto
bank_data.loc[bank_data['pdays'] == -1, 'pdays'] = 10000


In [None]:
# Create a new column: recent_pdays 
bank_data['recent_pdays'] = np.where(bank_data['pdays'], 1/bank_data.pdays, 1/bank_data.pdays)

# Drop 'pdays'
bank_data.drop('pdays', axis=1, inplace = True)

### Convert to dummy values

In [None]:
# Convert categorical variables to dummies
bank_with_dummies = pd.get_dummies(data=bank_data, columns = ['job', 'marital', 'education', 'poutcome'], \
                                   prefix = ['job', 'marital', 'education', 'poutcome'])
bank_with_dummies.head()

In [None]:
bank_with_dummies.shape


In [None]:
bank_with_dummies.describe()


In [None]:
# Scatterplot showing age and balance
bank_with_dummies.plot(kind='scatter', x='age', y='balance');

# ¿Qué interpretas?

In [None]:
bank_with_dummies.plot(kind='hist', x='poutcome_success', y='duration');


In [None]:
# Personas que se inscriben en un depósito a plazo
bank_with_dummies[bank_data.deposit_cat == 1].describe()


In [None]:
# Bar chart of job Vs deposite
plt.figure(figsize = (10,6))
sns.barplot(x='job', y = 'deposit_cat', data = bank_data)

### Establecer las relaciones entre las features


In [9]:
# Mostrar matriz de correlación de variables
# Pista: explore plt.matshow y corr() de un dataframe

In [10]:
# Mostrar correlaciones como una función discreta entre las diferentes variables con una matriz
# útil para apreciar relaciones lineales

# Pista: explore pd.plotting.scatter_matrix

In [11]:
# Partir el test en cierta proporción (¡experimentar!)


In [13]:
# Definir un clasificador


# Entrenar el clasificador con el dataset de train

# Predecir valores para las variables independientes de test

# Calcular la precisión
# Pista: explorar sklearn.metrics.accuracy_score


#### Compare Training and Testing scores for various tree depths used


In [None]:
#print('{:10} {:20} {:20}'.format('depth', 'Training score','Testing score'))
#print('{:10} {:20} {:20}'.format('-----', '--------------','-------------'))
#print('{:1} {:>25} {:>20}'.format(2, dt2_score_train, dt2_score_test))
#print('{:1} {:>23} {:>20}'.format("max", dt1_score_train, dt1_score_test))

In [None]:
# Uncomment below to generate the digraph Tree.
#tree.export_graphviz(dt2, out_file='tree_depth_2.dot', feature_names=features)

### Mejor resultado conseguido por nosotros -> Accuracy: 0.8943918426802622

