In [1]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import OneHotEncoder, LabelEncoder, OrdinalEncoder

# Resumo dos métodos de codificação de variáveis categóricas

<table align="center">
	<thead>
		<tr>
            <th>Tipo</th>
			<th>Função</th>
			<th width="400px">Descrição</th>
		</tr>
    </thead>
    <tbody>
		<tr>
            <td>Nominal</td>
            <td><a href="https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html">OneHotEncoder</a></td>
            <td>O método <i>aprende</i> as categorias a partir do conjunto. Fornece parametros para tratar com categorias desconhecidas e permite fazer transformação inversa.</td>
        </tr>
        <tr>
            <td>Nominal</td>
            <td><a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html">get_dummies</a></td>
            <td>O método não <i>aprende</i> as categorias do conjunto. Pode gerar inconsistencias caso exista categorias desconhecidas e não permite fazer transformação inversa de forma trivial.</td>
		</tr>
        <tr>
            <td>Ordinal</td>
            <td><a href="https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html">OrdinalEncoder</a></td>
            <td>Permite identificar ordem das categorias automáticamente e fornece parametros para especificar a ordem das categorias, além de permitir transformação inversa.</td>
		</tr>
        <tr>
            <td>Ordinal</td>
            <td><a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.map.html">map</a></td>
            <td>Permite especificar a ordem das categorias, mas não permite fazer a transformação inversa de forma trivial.</td>
		</tr>
        <tr>
            <td>Rótulo</td>
            <td><a href="https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html">LabelEncoder</a></td>
            <td>Usado somente para codificar rótulos do target no aprendizado supervisionado para converter um problema de classificação em regressão ou reduzir consumo de memoria caso os valores do target sejam grandes (tamanho ou frequencia).</td>
		</tr>
	</tbody>
</table>

In [2]:
def get_dataframe():
    return pd.DataFrame({
        'FaixaSalarial': ['5-10', '2-5', '5-10', '1-2', '5-10'],
        'Idade': [29, 32, 25, 46, 22]
    })

# Variável: Ordinal

## OrdinalEncoder()

In [3]:
df = get_dataframe()
oe = OrdinalEncoder(categories=[['1-2', '2-5', '5-10']])
df['FaixaSalarialOrd'] = oe.fit_transform(df[['FaixaSalarial']])
df.head()

Unnamed: 0,FaixaSalarial,Idade,FaixaSalarialOrd
0,5-10,29,2.0
1,2-5,32,1.0
2,5-10,25,2.0
3,1-2,46,0.0
4,5-10,22,2.0


## map()

In [4]:
map_faixa_salarial = {
    '1-2': 0,
    '2-5': 1,
    '5-10': 2
}
df = get_dataframe()
df['FaixaSalarialOrd'] = df['FaixaSalarial'].map(map_faixa_salarial)
df.head()

Unnamed: 0,FaixaSalarial,Idade,FaixaSalarialOrd
0,5-10,29,2
1,2-5,32,1
2,5-10,25,2
3,1-2,46,0
4,5-10,22,2


# Variável: Nominal

## OneHotEncoder

In [5]:
df = get_dataframe()
ohe = OneHotEncoder(sparse=False)
df_transformed = ohe.fit_transform(df[['FaixaSalarial']])
df_transformed = pd.DataFrame(df_transformed, columns=ohe.get_feature_names())
pd.concat([df, df_transformed], axis=1)

Unnamed: 0,FaixaSalarial,Idade,x0_1-2,x0_2-5,x0_5-10
0,5-10,29,0.0,0.0,1.0
1,2-5,32,0.0,1.0,0.0
2,5-10,25,0.0,0.0,1.0
3,1-2,46,1.0,0.0,0.0
4,5-10,22,0.0,0.0,1.0


## get_dummies()

In [6]:
df = get_dataframe()
df_transformed = pd.get_dummies(df['FaixaSalarial'])
df_transformed.columns = ['x0_' + col for col in df_transformed.columns]
pd.concat([df, df_transformed], axis=1)

Unnamed: 0,FaixaSalarial,Idade,x0_1-2,x0_2-5,x0_5-10
0,5-10,29,0,0,1
1,2-5,32,0,1,0
2,5-10,25,0,0,1
3,1-2,46,1,0,0
4,5-10,22,0,0,1


# Variável: Rótulo

## LabelEncoder()

In [9]:
df = get_dataframe()
le = LabelEncoder()
df['FaixaSalarialLbl'] = le.fit_transform(df['FaixaSalarial']) # assumindo FaixaSalarial como target y
df.head()

Unnamed: 0,FaixaSalarial,Idade,FaixaSalarialLbl
0,5-10,29,2
1,2-5,32,1
2,5-10,25,2
3,1-2,46,0
4,5-10,22,2


# Leitura complementar

1. [Difference between OrdinalEncoder and LabelEncoder](https://datascience.stackexchange.com/questions/39317/difference-between-ordinalencoder-and-labelencoder)
2. [What are the pros and cons between pd.get_dummies and sklearn.OneHotEncoder](https://stackoverflow.com/questions/36631163/what-are-the-pros-and-cons-between-get-dummies-pandas-and-onehotencoder-sciki)
3. [Encoding Categorical Data in Machine Learning](https://medium.com/bycodegarage/encoding-categorical-data-in-machine-learning-def03ccfbf40)