# Como Converter Categorias em Números?

## Carregamento dos Dados

In [7]:
import plotly.express as px

# Obtém um dataset de exemplo
df = px.data.tips()
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


## Utilizando a função `map` do Pandas

In [14]:
# Obtém um dataset de exemplo
df = px.data.tips()

# Mapeia os códigos manualmente
df['sex'] = df['sex'].map({'Female': 0, 'Male': 1})
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,0,No,Sun,Dinner,2
1,10.34,1.66,1,No,Sun,Dinner,3
2,21.01,3.5,1,No,Sun,Dinner,3
3,23.68,3.31,1,No,Sun,Dinner,2
4,24.59,3.61,0,No,Sun,Dinner,4


## Utilizando o `LabelEncoder` do `sklearn`

O `LabelEncoder` é usado para transformar dados categóricos ou textuais não numéricos em um formato numérico que os algoritmos de aprendizado de máquina podem entender e usar.

In [16]:
from sklearn.preprocessing import LabelEncoder

# Obtém um dataset de exemplo
df = px.data.tips()

le = LabelEncoder()
df['day'] = le.fit_transform(df['day'])
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,2,Dinner,2
1,10.34,1.66,Male,No,2,Dinner,3
2,21.01,3.5,Male,No,2,Dinner,3
3,23.68,3.31,Male,No,2,Dinner,2
4,24.59,3.61,Female,No,2,Dinner,4


> Para recuperar as categorias originais, utilize o objeto `LabelEncoder` da seguinte forma

In [17]:
le.inverse_transform(df['day'])

array(['Sun', 'Sun', 'Sun', 'Sun', 'Sun', 'Sun', 'Sun', 'Sun', 'Sun',
       'Sun', 'Sun', 'Sun', 'Sun', 'Sun', 'Sun', 'Sun', 'Sun', 'Sun',
       'Sun', 'Sat', 'Sat', 'Sat', 'Sat', 'Sat', 'Sat', 'Sat', 'Sat',
       'Sat', 'Sat', 'Sat', 'Sat', 'Sat', 'Sat', 'Sat', 'Sat', 'Sat',
       'Sat', 'Sat', 'Sat', 'Sat', 'Sat', 'Sun', 'Sun', 'Sun', 'Sun',
       'Sun', 'Sun', 'Sun', 'Sun', 'Sun', 'Sun', 'Sun', 'Sun', 'Sun',
       'Sun', 'Sun', 'Sat', 'Sat', 'Sat', 'Sat', 'Sat', 'Sat', 'Sat',
       'Sat', 'Sat', 'Sat', 'Sat', 'Sat', 'Sat', 'Sat', 'Sat', 'Sat',
       'Sat', 'Sat', 'Sat', 'Sat', 'Sat', 'Thur', 'Thur', 'Thur', 'Thur',
       'Thur', 'Thur', 'Thur', 'Thur', 'Thur', 'Thur', 'Thur', 'Thur',
       'Thur', 'Fri', 'Fri', 'Fri', 'Fri', 'Fri', 'Fri', 'Fri', 'Fri',
       'Fri', 'Fri', 'Fri', 'Fri', 'Sat', 'Sat', 'Sat', 'Sat', 'Sat',
       'Sat', 'Sat', 'Sat', 'Sat', 'Sat', 'Sun', 'Sun', 'Sun', 'Sun',
       'Sun', 'Thur', 'Thur', 'Thur', 'Thur', 'Thur', 'Thur', 'Thur',
       'Thur',

In [19]:
# Além disso, você pode observar as classes originais no objeto le
le.classes_

array(['Fri', 'Sat', 'Sun', 'Thur'], dtype=object)

## *One-Hot-Encoding*

### Pandas `get_dummies()`

In [21]:
import pandas as pd

# Obtém um dataset de exemplo
df = px.data.tips()
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [23]:
df_dummies = pd.get_dummies(df, columns=['sex', 'time', 'smoker'])
df_dummies

Unnamed: 0,total_bill,tip,day,size,sex_Female,sex_Male,time_Dinner,time_Lunch,smoker_No,smoker_Yes
0,16.99,1.01,Sun,2,1,0,1,0,1,0
1,10.34,1.66,Sun,3,0,1,1,0,1,0
2,21.01,3.50,Sun,3,0,1,1,0,1,0
3,23.68,3.31,Sun,2,0,1,1,0,1,0
4,24.59,3.61,Sun,4,1,0,1,0,1,0
...,...,...,...,...,...,...,...,...,...,...
239,29.03,5.92,Sat,3,0,1,1,0,1,0
240,27.18,2.00,Sat,2,1,0,1,0,0,1
241,22.67,2.00,Sat,2,0,1,1,0,0,1
242,17.82,1.75,Sat,2,0,1,1,0,1,0


### `OneHotEncoder` do `sklearn`

In [33]:
from sklearn.preprocessing import OneHotEncoder

# Obtém um dataset de exemplo
df = px.data.tips()

# Cria um objeto OneHotEncoder
encoder = OneHotEncoder(sparse_output=False)

encoded = encoder.fit_transform(df[['sex', 'smoker']])

onehot_df = pd.DataFrame(encoded, columns=encoder.get_feature_names_out(['sex', 'smoker']))

print(onehot_df)

     sex_Female  sex_Male  smoker_No  smoker_Yes
0           1.0       0.0        1.0         0.0
1           0.0       1.0        1.0         0.0
2           0.0       1.0        1.0         0.0
3           0.0       1.0        1.0         0.0
4           1.0       0.0        1.0         0.0
..          ...       ...        ...         ...
239         0.0       1.0        1.0         0.0
240         1.0       0.0        0.0         1.0
241         0.0       1.0        0.0         1.0
242         0.0       1.0        1.0         0.0
243         1.0       0.0        1.0         0.0

[244 rows x 4 columns]
