# <font color='blue'>Como transformar variáveis categóricas em valores numéricos</font>

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Python Version:', python_version())

# Verificando as versões dos pacotes instalados
pandasVersion = !pip show pandas
matplotlibVersion = !pip show matplotlib
sklearnVersion = !pip show scikit-learn
print('Pandas', pandasVersion[1])
print("Matplotlib", matplotlibVersion[1])
print("Sklearn", sklearnVersion[1])

Python Version: 3.9.13
Pandas Version: 2.0.2
Matplotlib Version: 3.7.1
Sklearn Version: 1.2.2


In [2]:
# Carregando os pacotes
import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

In [3]:
# Carregando o dataset Iris que já vem com a biblioteca Seaborn
df = sns.load_dataset("iris")
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [4]:
# Visualizando informações sobre o dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [None]:
# Countplot da variável species
sns.set_theme(style="dark") # Define o tema utilizado.

ax = sns.countplot(x=df.species, palette = "Greens_d");
ax.set_title("Frequência absoluta da variável species", fontsize = 16)
for p in ax.patches: # Exibe os valores no gráfico
    _x = p.get_x() + p.get_width() - 0.4
    _y = p.get_y() + p.get_height()
    value = int(p.get_height())
    ax.text(_x, _y, value, ha="left")

In [None]:
# Convertendo a variável alvo de texto para número.
# LabelEncoder deve ser usado somente na variável alvo. Para variáveis preditoras deve ser utilizada a função OneHotEncoder ou pd.get_dummies(df).

# Cria o objeto encoder
encoder = LabelEncoder()

df["especie"] = encoder.fit_transform(df['species'])
df

### Variável Dummy
<details><summary>CLICK</summary>
<p>

Uma **variável Dummy** é aquela que toma o valor "um", indicando a presença de uma categoria, ou o valor "zero", indicando a ausência de uma categoria.  Essas variáveis são usadas como dispositivos para classificar dados em categorias mutuamente exclusivas. <br>
Por exemplo, a variável sexo de um conjunto de dados pode ser transformada em duas variáveis Dummy, uma chamada sexo_Masculino e outra chamada sexo_Feminino. Neste caso, em uma observação onde o valor da variável sexo é masculino, a variável Dummy chamada sexo_Masculino receberia o valor 1, idicando a presença dessa categoria, e a variável chamada sexo_Feminino receberia o valor 0, indicando a ausência dessa categoria.

</p>
</details>

In [None]:
# Carregando o dataset Tips que já vem com a biblioteca Seaborn
df = sns.load_dataset("tips")
df

In [None]:
# Visualizando informações sobre o dataset
df.info()

### Utilizando o Pandas

In [None]:
# Visualizando a primeira linha
df.head(1)

In [None]:
# Convertendo variáveis categóricas em valores numéricos (variáveis dummies)
df2 = pd.get_dummies(df)
df2

### Utilizando o Scikit-Learn

In [None]:
# Convertendo variáveis categóricas em valores numéricos (variáveis dummies)
encoder = OneHotEncoder()
X = df[["sex", "smoker", "day", "time"]]
dadosCodificados = encoder.fit_transform(X).toarray()
dadosCodificados

In [None]:
# Salvando as categorias criadas pelo Encoder
colunas = []
for i in encoder.get_feature_names_out():
    colunas.append(i)
colunas

In [None]:
# Criando um DataFrame com as categorias codificadas
dfCodificados = pd.DataFrame(dadosCodificados, columns=colunas)
dfCodificados

In [None]:
# Organizando o DataFrame
dfTips = dfCodificados.copy()
dfTips["total_bill"] = df["total_bill"]
dfTips["tip"] = df["tip"]
dfTips