# Converter dados categóricos em numéricos

In [34]:
import pandas as pd

In [35]:
data = {
    'name': ['Mike', 'Anna', 'Mary', 'Lee', 'Rose', 'Anderson'],
    'age': [16, 21, 31, 39, 75, 33],
    'gender': ['male', 'female', 'female', 'male', 'female', 'male']
}

sample_df = pd.DataFrame(data)
sample_df.head(10)

Unnamed: 0,name,age,gender
0,Mike,16,male
1,Anna,21,female
2,Mary,31,female
3,Lee,39,male
4,Rose,75,female
5,Anderson,33,male


## 1 - Substituição simples
Funciona quando conhecemos os dados e temos poucos valors distintos, uma vez que os novos valores serão definidos de forma manual ou semi-manual.

É importante ressaltar que esse tipo de abordagem é desencorajado para a maioria dos cenários, pois, dependendo de como será executado, pode levar a erros mais facilmente.

In [36]:
def gender_replace(gender):
    if gender == 'female':
        return 0
    return 1

subs_df = sample_df.copy(deep=True)

subs_df['gender_subs'] = sample_df['gender'].map(gender_replace)
subs_df.head(10)

Unnamed: 0,name,age,gender,gender_subs
0,Mike,16,male,1
1,Anna,21,female,0
2,Mary,31,female,0
3,Lee,39,male,1
4,Rose,75,female,0
5,Anderson,33,male,1


## 2 - LabelEncoder
Os dados são convertidos seguindo a ordem alfabética das strings, onde, cada dado será mapeado para um número inteiro que o representará.

Este tipo de conversão é recomendado quando há uma ordem lógica nos dados (importância), como posições de uma corrida (Primeiro, Segundo, Terceiro, ...), cargos (Júnior, Pleno, Senhor), etc.

In [37]:
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
le_genders = le.fit_transform(sample_df['gender'])

le_df = sample_df.copy(deep=True)
le_df['le_gender'] = le_genders
le_df.head(10)


Unnamed: 0,name,age,gender,le_gender
0,Mike,16,male,1
1,Anna,21,female,0
2,Mary,31,female,0
3,Lee,39,male,1
4,Rose,75,female,0
5,Anderson,33,male,1


## 3 - OneHotEncoder
Recomendado para quando os dados não seguem uma ordem predefinida.

O resultado será uma matriz de presença (esparsa), e como tal, pode ser extremamente grande.

Cada valor distinto será transformado em uma coluna da matriz, onde a linha referente ao valor estará preenchida com 1 e as demais linhas com 0.

### 3.1 - Scikit-learn

In [38]:
from sklearn.preprocessing import OneHotEncoder


ohe = OneHotEncoder()

gender_qty = sample_df['gender'].nunique()

temp_cols = [f'gender_{i+1}' for i in range(gender_qty)]
temp_data = sample_df['gender'].values.reshape(-1, 1)
temp_data = ohe.fit_transform(temp_data)
temp_data = temp_data.toarray()

temp_df = pd.DataFrame(temp_data, columns=temp_cols, dtype=int)

ohe_df = pd.concat([sample_df, temp_df], axis=1)

ohe_df.head(10)

Unnamed: 0,name,age,gender,gender_1,gender_2
0,Mike,16,male,0,1
1,Anna,21,female,1,0
2,Mary,31,female,1,0
3,Lee,39,male,0,1
4,Rose,75,female,1,0
5,Anderson,33,male,0,1


### 3.2 - Pandas (get_dummies)

In [39]:
temp_df = pd.get_dummies(sample_df['gender'], prefix='gender', dtype=int)

pgd_df = pd.concat([sample_df, temp_df], axis=1)

pgd_df.head(10)

Unnamed: 0,name,age,gender,gender_female,gender_male
0,Mike,16,male,0,1
1,Anna,21,female,1,0
2,Mary,31,female,1,0
3,Lee,39,male,0,1
4,Rose,75,female,1,0
5,Anderson,33,male,0,1
