# Features Engineering

El objetivo de este notebook es aplicar distintas transformaciones de variables, principalmente usando la librería pandas y Scikit-Learn

Titanic: Machine Learning from Disaster es una gran competencia para aplicar distintas funciones de ingeniería de atributos. Hay muchos secretos que se revelarán debajo del conjunto de datos Titanic. Preparemos el dataset para ir descubriendo algunos de esos factores secretos que habían afectado la supervivencia de los pasajeros cuando el Titanic se estaba hundiendo.


Cargamos las librerías y los datos

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
sns.set()

In [None]:
### Carga de datos
df = pd.read_csv('titanic.csv')

#df = sns.load_dataset('titanic')
print(df.shape)
df.head(5)

## Variables Numéricas

En general, las variables numéricas podrían ser usadas sin demasiado preprocesamiento, ya que ya están en un formato que los modelos entienden. Sin embargo, muchas veces no es ese el caso. Algunas de las cosas que se suelen hacer son:
* Discretización y binning
* Reescalar (más adelante en el curso)
* Combinar con otras variables (más adelante en el curso)


**Discretización y binning con Pandas**

Si ya sabemos qué bines usar, Pandas es muy útil.

In [None]:
bins = [0,3,12,18,60,200]
edades = df.age.values
cats = pd.cut(edades, bins)

In [None]:
cats.codes

Y lo agregamos al dataframe

In [None]:
df['rango_etario'] = cats.codes
df.head(10)

Si queremos que sea más expresivo

In [None]:
df.rango_etario = df.rango_etario.map({0: 'bebe', 1: 'ninio', 2: 'adolescente', 3: 'adulto',4: 'anciano', -1: np.nan})
df.head(5)

En el notebook *clase_06_titanic_resuelto.ipynb* pueden encontrar otra forma de hacerlo con Pandas.

**Discretización y binning con Scikit-Learn**

La principal diferencia entre Scikit-Learn y Pandas es que Scikit-Learn decide los límites de los bines de acuerdo a una estrategia que le pasemos.

Scikit-Learn obliga a ser un poco más metódico.

Primero completamos los valores faltantes.

In [None]:
df.age.fillna(df.age.mean(), inplace = True)
df.head(10)

Luego, creamos el *estimador*

In [None]:
from sklearn.preprocessing import KBinsDiscretizer
est = KBinsDiscretizer(n_bins=5, encode='ordinal', strategy = 'uniform')

Separamos los valores que queremos fitear.

In [None]:
edades = df.age.values
print(edades.reshape(-1,1).shape)

Y fiteamos el estimador

In [None]:
#est.fit(edades)
est.fit(edades.reshape(-1,1))

Miramos los límites de cada bin

In [None]:
est.bin_edges_

In [None]:
bines_asignados = est.transform(edades.reshape(-1,1))
print(bines_asignados)

In [None]:
df['rangos_etarios_scikit'] = bines_asignados
df.head(3)

Se puede hacer en una sola línea con *.fit_transform*

In [None]:
df['rangos_etarios_scikit'] = est.fit_transform(edades.reshape(-1,1))
df.head(10)

## Variables Categóricas

Las variables categóricas pueden ser ordinales (que tienen un orden), como el talle de una remera, o nominales, como el color.

### Ordinales

Muchas veces, podemos asignar un orden intuitivo. En ese caso, podemos usar map de pandas.

Creamos un dataset

In [None]:
df_ropa = pd.DataFrame([
            ['green', 'M', 10.1, 'class1'],
            ['red', 'L', 13.5, 'class2'],
            ['blue', 'XL', 15.3, 'class1']])
df_ropa.columns = ['color', 'size', 'price', 'classlabel']
df_ropa

Y asignamos un *mapeo* a los talles. En este caso, $XL = L + 1 = M + 2$. Esto lo hacemos con un diccionario.

In [None]:
size_mapping = {'XL': 3,'ML': 2.5, 'L': 2,'M': 1}

Y aplicamos la función *map*

In [None]:
df_ropa['size'] = df_ropa['size'].map(size_mapping)
df_ropa

Lamentablemente, no existen (o no conocemos) funciones que hagan el mapeo de forma automática.

### Nominales

Este es uno de los tipos de *encoding* más comunes que vamos a tener que hacer. Empecemos con un ejemplo, el género en el Titanic.


In [None]:
df.head(10)

In [None]:
aux =  pd.get_dummies(df.drop(columns = ['name', 'home.dest']), drop_first = True)
aux.head(10)

**Scikit-learn**

El caballito de batalla es el OneHotEncoder

In [None]:
from sklearn.preprocessing import OneHotEncoder
onehot_encoder = OneHotEncoder(sparse = False)

In [None]:
generos = df.sex.values.reshape(-1,1)
print(np.unique(generos))

In [None]:
onehot_encoder.fit(generos)

In [None]:
onehot_encoder.categories_

In [None]:
generos_encoded = onehot_encoder.transform(generos)
print(generos_encoded)

In [None]:
onehot_encoder.inverse_transform(generos_encoded[500].reshape(1,-1))

In [None]:
df['female_encoded'] = generos_encoded[:,0]
df['male_encoded'] = generos_encoded[:,1]
df.head(10)

### NaNs con Scikit-Learn

In [None]:
### Carga de datos
df = pd.read_csv('titanic.csv')
print(df.shape)
df.head(5)

In [None]:
from sklearn.preprocessing import Imputer
imp = Imputer(strategy='mean')

In [None]:
from sklearn.impute import SimpleImputer
imp = SimpleImputer(strategy='median')

In [None]:
edades = df.age.values
imp.fit(edades.reshape(-1,1))
print(imp.statistics_)

In [None]:
edades_imputed = imp.transform(edades.reshape(-1,1))
print(edades_imputed)