# **Data Encoding**
Saturdays AI LATAM

12 de Septiembre de 2020

Mentor: María Inés Calderón Zetter

# **Data Encoding: Label Encoder**
Utilizamos Label Encoder para generar un reemplazo de valores categóricos o textuales por valores numéricos, los cuales se agrupan de forma que a los registros que cuenten con la misma palabra podamos identificarlos por un númeral.

In [None]:
import pandas as pd
df = pd.read_csv('https://ingenieriadesoftware.com.mx/LaRioja/Paises.csv')
df.shape

(10, 4)

In [None]:
df.head(5)

Unnamed: 0,Pais,Edad,Salario,Compra
0,Francia,44.0,72000.0,No
1,Espana,27.0,48000.0,Si
2,Alemania,30.0,54000.0,No
3,Espana,38.0,61000.0,No
4,Alemania,40.0,,Si


In [None]:
#Por defecto cualquier campo no numérico será de tipo 'object'
df.dtypes

Pais         object
 Edad       float64
 Salario    float64
 Compra      object
dtype: object

In [None]:
# Categorical boolean mask, de esta forma realizamos un cambio al tipo de dato
# lo 'enmascaramos' como un tipo categórico para poderlo tratar.
categorical_feature_mask = df.dtypes==object
# filter categorical columns using mask and turn it into a list
categorical_cols = df.columns[categorical_feature_mask].tolist()

In [None]:
# import labelencoder
from sklearn.preprocessing import LabelEncoder# instantiate labelencoder object
le = LabelEncoder()
# A cada columna de tipo categórica le aplicamos la transformación
# bien podríamos realizarlo con una columna en específico de forma:
# df['ColumnaNueva'] = le.fit_transform(bridge_df['ColumnaAnterior'])
df[categorical_cols] = df[categorical_cols].apply(lambda col: le.fit_transform(col))
df[categorical_cols].head(10)

Unnamed: 0,Pais,Compra
0,2,0
1,1,1
2,0,0
3,1,0
4,0,1
5,2,0
6,1,0
7,2,1
8,0,0
9,2,1


In [None]:
#Observamos aquellos registros que están nulos
df.isna().sum()

Pais        0
 Edad       1
 Salario    1
 Compra     0
dtype: int64

In [None]:
#Las columnas que contaban con datos categóricos ahora muestran 
#Sus respectivos identificadores numéricos
df.head()

Unnamed: 0,Pais,Edad,Salario,Compra
0,2,44.0,72000.0,0
1,1,27.0,48000.0,1
2,0,30.0,54000.0,0
3,1,38.0,61000.0,0
4,0,40.0,,1


# **Encode categorical features: OneHotEncoder**

Obtiene una columna que contenga datos categóricos, que ya ha sido previamente procesada mediante Label Encoding, y parte la columna en múltiples columnas. Los números son reemplazados por 1/0 dependiendo del valor de la columna.

In [None]:
#Dummy encoding of categorical features
#We need to specify categorical feature using its mask inside OneHotEncoder. 
#The sparse=False argument outputs a non-sparse matrix.
from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder(sparse=False)

In [None]:
# apply OneHotEncoder on categorical feature columns
ohe.fit_transform(df[['Pais']])
ohe.categories_

[array(['Alemania', 'Espana', 'Francia'], dtype=object)]

In [None]:
ohe.fit_transform(df[['Pais']])

array([[0., 0., 1.],
       [0., 1., 0.],
       [1., 0., 0.],
       [0., 1., 0.],
       [1., 0., 0.],
       [0., 0., 1.],
       [0., 1., 0.],
       [0., 0., 1.],
       [1., 0., 0.],
       [0., 0., 1.]])

Utilizamos LabelEncoder y OneHotEncoder generalmente juntos como un método a dos pasos para codificar variables categóricas. 

**LabelEncoder** nos da como salida un dataframe.

**OneHotEncoder** nos da como salida un numpy array.


**Fuentes:**



*   Liu, Y. (2018, 20 septiembre). Encoding Categorical Features - Towards Data Science. Medium. https://towardsdatascience.com/encoding-categorical-features-21a2651a065c

*   Srinidhi, S. (2020, 9 enero). Label Encoder vs. One Hot Encoder in Machine Learning. Medium. https://medium.com/@contactsunny/label-encoder-vs-one-hot-encoder-in-machine-learning-3fc273365621

*   Yadav, D. (2020, 8 febrero). Categorical encoding using Label-Encoding and One-Hot-Encoder. Medium. https://towardsdatascience.com/categorical-encoding-using-label-encoding-and-one-hot-encoder-911ef77fb5bd
