## Introducción al Machine Learning 
### Análisis Exploratorio y Pre-procesado 


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### DataSet Bank-Marketing

El dataset en el siguiente CSV es una muestra de un dataset popular sobre marketing de depositos bancarios.
Mas info en https://www.openml.org/d/1461

Dado que la contratación telefónica de un producto financiero suele conllevar varias llamadas, la tarea de clasificación consiste en determinar si un cliente va a contratar o no el producto de la campaña actual, en función de la situación personal y de las características y resultado de llamadas anteriores

In [None]:
bank_marketing = pd.read_csv('../data/bank.csv', sep=';')

In [None]:
from sklearn import preprocessing

In [None]:
bank_marketing.head()

Numero de Ejemplos y Características


In [None]:
bank_marketing.shape

Tipo de dato reconocido

In [None]:
bank_marketing.dtypes

descripción estadística de los valores numéricos

In [None]:
bank_marketing.describe()

Vemos la distribución de las características nominales

In [None]:
bank_marketing['job'].value_counts()

In [None]:
bank_marketing['month'].value_counts().plot.bar()

### Qué hacer con las características nominales

### Ordinales
Generamos un ordinal para reemplazar la caracteristica 'educacion'

In [None]:
bank_marketing.education.unique()

In [None]:
educ_mapping = {'unknown':0,
                'primary':1,
                'secondary':2, 
                'tertiary':3}

In [None]:
bank_marketing.education.replace(educ_mapping, inplace=True)

In [None]:
label = bank_marketing.y
features = bank_marketing.loc[:, bank_marketing.columns != 'y']

In [None]:
features

#### Variables Dummies
Generar una variable por cada valor nominal y asignar 1 en el caso que ese valor ocurra en el ejemplo

In [None]:
pd.get_dummies(features.marital)

Podemos transformar todo el dataset

In [None]:
pd.get_dummies(features).columns

O mejor, determinar sobre cuales características tiene sentido hacerlo, 
y pasar sólo las columnas necesarias. Ejemplo


In [None]:
pd.get_dummies(features, columns=['marital','job'])

In [None]:
useful = bank_marketing[['age', 'job', 'marital', 'education', 'default', 'balance', 'housing',
       'loan', 'contact', 'duration', 'campaign', 'pdays',
       'previous', 'poutcome']]

In [None]:
ft_df = pd.get_dummies(features, columns=['marital','job'])


### Alternativas a la codificación de ordinales

sklearn puede generarnos un mapping para transformar a tipo numerico las caracteristicas
nominales.  Las clases **OrdinalEncoder** y **LabelEncoder** nos permiten además 
conservar ese mapping para transformar de la misma forma, por ejemplo un conjunto de test y poder realizar la transformación inversa para fines de interpretación

In [None]:
from sklearn.preprocessing import OrdinalEncoder

In [None]:
enc = OrdinalEncoder()

In [None]:
ft_base = features.iloc[:-10].copy()
ft_rest = features.iloc[-10:].copy()

In [None]:
ft_base[['housing','contact']] = enc.fit_transform(ft_base[['housing','contact']])

In [None]:
ft_base.head()

In [None]:
enc.categories_

In [None]:
ft_rest[['housing','contact']] = enc.transform(ft_rest[['housing','contact']])

In [None]:
ft_rest

In [None]:
enc.inverse_transform(ft_rest[['housing','contact']])

___

### Propuesta de Ejercicio

Construir un dataset de entrenamiento que utilice el CSV de bank-marketing original para:
1. descarte la caracteristica 'month' porque *pensamos* que no nos interesa
2. convierta en [0 1] todas las caracteristicas nominales de dos valores
3. convierta en variables dummies las caracteristicas nominales de más de dos valores
    