# Features

En esta ayudantía express vamos a explorar dos técnicas para manejar _features_. La primera es **Binning**, que nos sirve para hacer modelos más robustos y prevenir el overfitting. La segunda es **One Hot Encoding**, que nos sirve para manejar _features_ categóricas. Por último una variación llamada **Ordinal Encoder** para categóricas ordinales.


# Binning

La idea de hacer Binning es principalmente manejar las variables categóricas con valores que aparecen pocas veces ya que pueden producir _overfitting_. La idea es agrupar los valores que aparecen poco en una nueva categoría como `"Otros"`. Aunque al hacer esto estamos perdiendo información. Esto se puede hacer para columnas numéricas, por ejemplo agrupando las etiquetas por ciertos intervalos. Veamos un ejemplo.

In [9]:
import pandas as pd

data = pd.DataFrame({'value': [2, 43, 10, 85, 28],'Color': ['red','blue', 'red', 'yellow', 'blue']})
data

Unnamed: 0,value,Color
0,2,red
1,43,blue
2,10,red
3,85,yellow
4,28,blue


In [10]:
data['value_2'] = pd.cut(data['value'], bins=[0,30,70,100], labels=["Low", "Mid", "High"])
data

Unnamed: 0,value,Color,value_2
0,2,red,Low
1,43,blue,Mid
2,10,red,Low
3,85,yellow,High
4,28,blue,Low


# One Hot Encoding

Este método cambia los valores categóricos nominales (difícil para los algoritmos de ML) por valores numéricos. Usamos esta forma de serializar los datos porque el modelo no va a "aprender" que existe una relación de orden entre los distintos valores de la columna que estamos serializando como _one hot_. Para aprender esta técnica lo mejor es partir con el ejemplo.

In [3]:
encoded_columns = pd.get_dummies(data['Color'])
data = data.join(encoded_columns).drop('Color', axis=1)
data

Unnamed: 0,value,value_2,blue,red,yellow
0,2,Low,0,1,0
1,43,Mid,1,0,0
2,10,Low,0,1,0
3,85,High,0,0,1
4,28,Low,1,0,0


Vemos que se genera una columna por cada valor variable categórica. Cada fila tiene un 1 en la columna que le corresponde. 

# Ordinal Encoder
Cuando nos encontramos con variables categóricas ordinales como nivel de riqueza (bajo, medio y alto) o nivel de estudios (básico, medio y superior), los datos tienen un orden por lo que hace sentido pasarlos a números en una misma columna con valores 1 2 3 por ejemplo. En estos casos se utiliza Ordinal Encoder

In [11]:
from sklearn.preprocessing import OrdinalEncoder

encoder = OrdinalEncoder(categories=[["Low", "Mid", "High"]]) #Acá debe anotarse en orden
encoder.fit(data[["value_2"]])
data["value_2-encoded"] = encoder.transform(data[["value_2"]])

data



Unnamed: 0,value,Color,value_2,value_2-encoded
0,2,red,Low,0.0
1,43,blue,Mid,1.0
2,10,red,Low,0.0
3,85,yellow,High,2.0
4,28,blue,Low,0.0


In [8]:
#Luego se puede borrar la columna value_2 ya que no la necesitaremos

data = data.drop('value_2', axis=1)

data

Unnamed: 0,value,blue,red,yellow,value_2-encoded
0,2,0,1,0,0.0
1,43,1,0,0,1.0
2,10,0,1,0,0.0
3,85,0,0,1,2.0
4,28,1,0,0,0.0
