# Features

En este _notebook_ vamos a explorar dos técnicas para manejar _features_. La primera es **Binning**, que nos sirve para hacer modelos más robustos y prevenir el overfitting. La segunda es **One Hot Encoding**, que nos sirve para manejar _features_ categóricas. Pero antes, vamos a partir discutiendo sobre la escala de los valores de las _features_ numéricas.

# _Scaling_

Supongamos que tenemos un dataset con dos columnas numéricas, una que representa la edad de una persona y otra que representa el salario. En la práctica, ambos números van a tener una escala muy distinta y eso puede afectar el desempeño de algunos algoritmos (en especial los basados en distancia). Por lo mismo, a veces queremos escalar la columna. Tenemos dos opciones:

- Normalización: normalizar una columna donde cada valor $x_i$ se escala según el mínimo y el máximo:

$$
x_i^{\text{normalizado}} = \frac{x_i - x_{\text{min}}}{x_{\text{max}} - x_{\text{min}}}
$$

- Estandarización: escalar cada valor $x_i$ de una columna según su media $\mu$ y su desviación estándar $\sigma$.

$$
x_i^{\text{normalizado}} = \frac{x_i - \mu}{\sigma}
$$

Escalar valores es importante para los modelos basados en distancia, como KNN, K-Means y SVM. Es importante tener presente esto al momento de usar algún modelo en la práctica.

# Binning

La idea de hacer Binning es principalmente manejar las variables categóricas con valores que aparecen pocas veces ya que pueden producir _overfitting_. La idea es agrupar los valores que aparecen poco en una nueva categoría como `"Otros"`. Aunque al hacer esto estamos perdiendo información. Esto se puede hacer para columnas numéricas, por ejemplo agrupando las etiquetas por ciertos intervalos. Veamos un ejemplo.

In [7]:
import pandas as pd

data = pd.DataFrame({'value': [2, 43, 10, 85, 28]})
data

Unnamed: 0,value
0,2
1,43
2,10
3,85
4,28


In [8]:
data['value_2'] = pd.cut(data['value'], bins=[0,30,70,100], labels=["Low", "Mid", "High"])
data

Unnamed: 0,value,value_2
0,2,Low
1,43,Mid
2,10,Low
3,85,High
4,28,Low


# One Hot Encoding

Este método cambia los valores categóricos (difícil para los algoritmos de ML) por valores numéricos. Usamos esta forma de serializar los datos porque el modelo no va a "aprender" que existe una relación de orden entre los distintos valores de la columna que estamos serializando como _one hot_. Para aprender esta técnica lo mejor es partir con el ejemplo.

In [10]:
encoded_columns = pd.get_dummies(data['value_2'])
data = data.join(encoded_columns).drop('value_2', axis=1)
data

Unnamed: 0,value,Low,Mid,High
0,2,1,0,0
1,43,0,1,0
2,10,1,0,0
3,85,0,0,1
4,28,1,0,0


Vemos que se genera una columna por cada valor variable categórica. Cada fila tiene un 1 en la columna que le corresponde. 