#Codificação de rótulos de texto (Encoders)

- Há algumas funções criadas especificamente para tratamento de rótulos;

- Essas funções não devem ser utilizadas para tratamento de atributos;

- Dentre elas destacam-se duas: LabelEncoder e LabelBinarizer.

##Label Encoder

Função bem similar à Ordinal Encoder, contudo tem o objetivo de tratar rótulos em vez de atributos. Esse método cria uma relação entre as classes e seus respectivos números inteiros correspondentes.

Bastante utilizado para codificação de poucas classes.

In [1]:
# Importando a biblioteca Pandas
import pandas as pd

In [2]:
# Criando um DataFrame
df = pd.DataFrame({
    'atributo1': [1,2,3],
    'atributo2': [5,6,7],
    'rotulo': ['alto', 'medio', 'baixo']
})

In [3]:
# Definindo duas variáveis, uma apenas com atributos outra apenas com os rótulos
atributos = df.drop('rotulo', axis=1)
rotulos = df['rotulo']

In [4]:
atributos

Unnamed: 0,atributo1,atributo2
0,1,5
1,2,6
2,3,7


In [5]:
rotulos

0     alto
1    medio
2    baixo
Name: rotulo, dtype: object

In [6]:
# Importando o método LabelEncoder
from sklearn.preprocessing import LabelEncoder

In [7]:
# Atrubuindo o LabelEncoder a uma variável
codificador = LabelEncoder()
codificador

In [8]:
# Treinando o modelo
codificador.fit(rotulos)

In [9]:
rotulos

0     alto
1    medio
2    baixo
Name: rotulo, dtype: object

In [10]:
# Transformando os labels
codificador.transform(rotulos)

array([0, 2, 1])

In [11]:
# Conferindo como foi gerada a ordem numérica através das classes
codificador.classes_

array(['alto', 'baixo', 'medio'], dtype=object)

In [12]:
for i in codificador.transform(rotulos):
    print(f'Classe {codificador.classes_[i]}: {codificador.transform(rotulos)[i]}')

Classe alto: 0
Classe medio: 1
Classe baixo: 2


In [13]:
# Realizando o processo acima com o Pandas

# Criando um dicionário como mapa para fazer o encoder
mapa = {
    'baixo': 0,
    'medio': 1,
    'alto': 2
}

In [14]:
# Criando um novo DataFrame copiando do df
df2 = df.copy()
df2

Unnamed: 0,atributo1,atributo2,rotulo
0,1,5,alto
1,2,6,medio
2,3,7,baixo


In [15]:
# Realizando o encoder dos labels
df2['rotulo'].map(mapa)

0    2
1    1
2    0
Name: rotulo, dtype: int64

In [16]:
# Incluindo uma nova coluna no df2 com os encoders
df2['rotulo_codificado'] = df2['rotulo'].map(mapa)
df2

Unnamed: 0,atributo1,atributo2,rotulo,rotulo_codificado
0,1,5,alto,2
1,2,6,medio,1
2,3,7,baixo,0


## Label Binarization

 - É uma função bem similar à Binary Encoder, porém a sua finalidade é tratar rótulos em vez de atributos;

 - Esse transformador cria uma relação entre as classes e sua representação binária correspondente;

 - Geralmente é utilizada quando há muitas classes de rótulos para serem codificadas;

 - Também auxilia em casos de classificação multiclasse ou multilabel.

In [18]:
# Importando o método LabelBinarizer
from sklearn.preprocessing import LabelBinarizer

In [19]:
# Criando um DataFrame
df = pd.DataFrame({
    'atributo1': [1,2,3],
    'atributo2': [5,6,7],
    'rotulo': ['alto', 'medio', 'baixo']
})

In [20]:
df

Unnamed: 0,atributo1,atributo2,rotulo
0,1,5,alto
1,2,6,medio
2,3,7,baixo


In [23]:
# Separando os atributos do DataFrame
atributos = df.drop('rotulo', axis=1)
atributos

Unnamed: 0,atributo1,atributo2
0,1,5
1,2,6
2,3,7


In [24]:
# Separando os rotulos do DataFrame
rotulo = df['rotulo']
rotulo

0     alto
1    medio
2    baixo
Name: rotulo, dtype: object

In [25]:
# Definindo o método LabelBinarizer em um variável
l_binarizer = LabelBinarizer()
l_binarizer

In [27]:
# Treinando o modelo com os rotulos
l_binarizer.fit(rotulo)

In [30]:
# Conferindo as classes do modelo
l_binarizer.classes_

array(['alto', 'baixo', 'medio'], dtype='<U5')

In [28]:
# Transformando os rotulos
l_binarizer.transform(rotulo)

array([[1, 0, 0],
       [0, 0, 1],
       [0, 1, 0]])

In [37]:
# Realizando o mesmo procedimento com pandas
df_pandas = df.copy()
pd.get_dummies(df_pandas['rotulo'])

Unnamed: 0,alto,baixo,medio
0,1,0,0
1,0,0,1
2,0,1,0
