# Feature Encoding

O objetivo desse notebook é demonstrar o conceito de feature encoding. Nessa introdução ao tema vamos monstrar as duas técnicas de feature encoding mais utilizadas: **label encoding** e **one hot encoding**

In [50]:
import numpy as np
import pandas as pd

from sklearn.preprocessing import LabelEncoder

## Carregando a base

In [51]:
df = pd.read_csv('titanic_limpo.csv')

# Vamos tirar as colunas PassangerId e Name, já que elas são unicas e não trazem muita informação para nós agora
df.drop(columns=['PassengerId', 'Name'], inplace=True)

In [52]:
df.shape

(889, 9)

In [53]:
df.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,0,3,male,22.0,1,0,A/5 21171,7.25,S
1,1,1,female,38.0,1,0,PC 17599,71.2833,C
2,1,3,female,26.0,0,0,STON/O2. 3101282,7.925,S
3,1,1,female,35.0,1,0,113803,53.1,S
4,0,3,male,35.0,0,0,373450,8.05,S


Vamos ver o tipo de dado de cada variável

## Explorando

In [54]:
df.dtypes

Survived      int64
Pclass        int64
Sex          object
Age         float64
SibSp         int64
Parch         int64
Ticket       object
Fare        float64
Embarked     object
dtype: object

Agora para cada feature categórica vamos ver qual é sua **cardinalidade** isto é, qual é o número de valores únicos que a variável possui

In [55]:
for col in df:
    if df[col].dtype == object:
        print(col, df[col].nunique())

Sex 2
Ticket 680
Embarked 3


## Label Encoding

- No label encoding cada valor unico é mapeado para um inteiro que substitui esse valor em toda a coluna
- Label encoding é recomendado quando o medelo utilizado é baseado em árvores

In [56]:
df_label = df.copy(deep=True) #Copiando nosso dataframe original

for col in df_label.columns:
    if df_label[col].dtype != object:
        continue
    encoder = LabelEncoder()
    encoder.fit(df_label[col]) 
    df_label[col] = encoder.transform(df_label[col])
    
df_label.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,0,3,1,22.0,1,0,522,7.25,2
1,1,1,0,38.0,1,0,595,71.2833,0
2,1,3,0,26.0,0,0,668,7.925,2
3,1,1,0,35.0,1,0,48,53.1,2
4,0,3,1,35.0,0,0,471,8.05,2


Podemos ver que as colunas Sex, Ticket e Embarked tiveram seus valores substituidos por inteiros

## One-Hot Encoding

- O one-hot encoding cria uma coluna para cada valor que a feature assume, tendo valor 1 quando a instancia tinha aquele valor e 0 caso contráro
- É preciso tomar cuidado com a cardinalidade das features já que estamos criando uma nova coluna para cada valor único
- One-hot enconding é utilizado com classificadores lineares, kNN e redes neurais

A forma mais simples de realizar One-Hot Encoding é com a função *get_dummies* do Pandas. É só passar o DataFrame para essa função que ele retorna as colunas categoricas com o encoding já aplicado. Obs: É bom pensar se isso não vai dar algum problema de memória, já que será feita uma cópia do DataFrame.

(Dica: Pesquise sobre as classes OneHotEncoder e LabelBinarizer do sklearn que também fazem essa tarefa. Vai ser bom para pegar um entendimento melhor de como as estruturas do numpy, pandas e sklearn conversam entre si)

In [57]:
df_one_hot = pd.get_dummies(df)

In [58]:
df_one_hot.head()

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare,Sex_female,Sex_male,Ticket_110152,Ticket_110413,...,Ticket_W./C. 14263,Ticket_W./C. 6607,Ticket_W./C. 6608,Ticket_W./C. 6609,Ticket_W.E.P. 5734,Ticket_W/C 14208,Ticket_WE/P 5735,Embarked_C,Embarked_Q,Embarked_S
0,0,3,22.0,1,0,7.25,0,1,0,0,...,0,0,0,0,0,0,0,0,0,1
1,1,1,38.0,1,0,71.2833,1,0,0,0,...,0,0,0,0,0,0,0,1,0,0
2,1,3,26.0,0,0,7.925,1,0,0,0,...,0,0,0,0,0,0,0,0,0,1
3,1,1,35.0,1,0,53.1,1,0,0,0,...,0,0,0,0,0,0,0,0,0,1
4,0,3,35.0,0,0,8.05,0,1,0,0,...,0,0,0,0,0,0,0,0,0,1


Pelas features Sex e Embarked parece que tudo funcionou com esperado. Para a coluna Ticket podemos ver que o encoding foi de fato realizado, mas pela sua cardinalidade talvez não tenha sido a melhor escolha possível