[<- Anterior](scaling_normalization.ipynb)  |  [Próximo ->](../Modelos/README.md)

# Codificação

O desenvolvimento de modelos de Inteligencia Artificial pode envolver dados categórigos que são expressos na forma de textos. Dados nesse tipo não podem ser processados de forma direta e portanto devem ser transformados em dados numéricos. Esse processo é a codificação e consiste em converter valores textuais em um intervalo numérico inteiro em que cada numero representa um texto expecifico.

**O que será abordado**
- Imports
- Dataset de teste
- Codificação de Features

# Imports

In [None]:
# Importação da biblioteca pandas -> Utilizada 
import pandas as pd

# Importação da Classe OneHotEncoder -> Utilizada para realizar a categorização dos dados
from sklearn.preprocessing import OneHotEncoder

# Dataset de teste

Para o estudo do processo de codificação dos dados será utilizado um dataset que possui diferentes tipos de dados e valores nulos. Dessa forma o dataframe de teste pode se aproximar de um caso real e pode ser usado para estudar diferentes ferramentas de pré-processamento.

O dataset utilizado está disponível na pasta Data desse diretório ([aperte aqui para acessar](../Data/PreProcessing_Test.csv)) e possui 100 linhas, apresentando valores nulos nas colunas 'Genero' e 'Salario'. O dataset apresenta uma coluna binaria 'Comprou' que indica se uma pessoa comprou um certo produto.

In [2]:
#leitura do dataset
df = pd.read_csv('../Data/pre_processing_test.csv')
df.head()

Unnamed: 0,Idade,Salario,Genero,Setor,Comprou
0,56,9392.0,Masculino,Marketing,0
1,46,4104.0,Feminino,TI,1
2,32,8215.0,Masculino,TI,0
3,25,3454.0,Feminino,Marketing,1
4,38,9996.0,Masculino,Marketing,1


# Codificação de Fatures

Features são os dados de entrada do modelo, isso é, são os dados utilizados para que um modelo possa fazer previsões. Esses dados podem ser de diversos tipos.

Como mencionado na introdução desse documento, é necessário que valores categóricos como textos sejam codificados na forma de numeros.

Esse processo pode ser realizado com a classe `OneHotEncoder()`, que é responsável por categorizar conjuntos de textos.

Para utilizar o `OneHotEncoder()` é necessário criar o codificador.

Após a criação do codificador o mesmo pode ser utilizado para categorizar strings com o método `.fit_transform()`, que recebe como parâmetro o conjunto de dados que se deseja codificar.

Veja um exemplo abaixo:

In [None]:
#Criação do encoder
encoder = OneHotEncoder(sparse_output=False, handle_unknown='ignore')

#Aplicação do Encoder
encoded = encoder.fit_transform(df[['Genero', 'Setor']])

#Transformação do resultado em Dataframe
encoded_df = pd.DataFrame(encoded, columns=encoder.get_feature_names_out(['Genero', 'Setor']))

#União dos Dataframes
df = df.join(encoded_df).drop(columns=['Genero', 'Setor'])
df

Após a aplicação do encoding, as colunas 'Genero' e 'Setor' foram transformadas colunas separadas que recebem valores binarios. Dessa forma esses dados podem ser trabalhados em modelos de IA.

>Importante: Para realizar a aplicação do encoder é necessário a remoção ou [imputação](missing_values.ipynb) dos valores nulos


#
[<- Anterior](scaling_normalization.ipynb)  |  [Próximo ->](../Modelos/README.md)