## Pré-Processamento de Dados
**Autor:** [Anderson França](https://www.linkedin.com/in/anderson-m-franca/) | **Contato:** [github.com/andfranca](https://github.com/andfranca/estatistica-e-aprendizado-de-maquinas-ptbr)

<a href="https://creativecommons.org/licenses/by/4.0/deed.en"><img align="left" width="80" src="https://mirrors.creativecommons.org/presskit/buttons/88x31/png/by-nc.png"/></a>

Os dados do mundo real frequentemente apresentam inconsistências, valores ausentes e ruídos. Para garantir que os modelos de aprendizado de máquina façam previsões confiáveis, é essencial aplicar técnicas de pré-processamento de dados, eliminando informações irrelevantes e corrigindo problemas antes da modelagem.


As decisões de qualidade devem ser baseadas em dados corretos e consistentes e o **pré-processamento de dados** é uma das etapas mais importantes do aprendizado de máquinas e garante a qualidade dos dados. Na área de dados, se colocar dados ruins, teremos resultados ruins (*garbage in, garbage out*)


**Objetivos do Pré-processamento**

- **Melhorar a precisão do modelo**: Ao limpar e formatar os dados, podemos garantir que o algoritmo considere apenas informações relevantes e que não seja influenciado por dados irrelevantes ou incorretos.


- **Redução de tempo e recursos**: Ao remover dados irrelevantes ou redundantes, podemos reduzir a quantidade de dados que o algoritmo precisa processar, o que pode reduzir bastante a quantidade de tempo e recursos necessários para treinar o modelo.

- **Ajuda a evitar o overfitting**: O overfitting ocorre quando um modelo é treinado em um conjunto de dados muito específico e, como resultado, tem um bom desempenho nos dados de treinamento, mas é ruim em dados novos e não vistos. Ao pré-processar os dados e remover informações irrelevantes ou redundantes, podemos ajudar a reduzir o risco de overfitting e melhorar a capacidade do modelo de generalizar para novos dados.

- **Melhorar a interpretabilidade do modelo**: Ao limpar e formatar os dados, podemos facilitar a compreensão das relações entre diferentes variáveis e como elas estão influenciando as previsões do modelo.

### Carregar Base de Dados

In [1]:
import pandas as pd

In [2]:
base_dados = pd.read_csv('/content/custo_medico_processamento.csv', decimal = ',')
base_dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2772 entries, 0 to 2771
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   idade             2772 non-null   int64  
 1   sexo              2772 non-null   object 
 2   IMC               2772 non-null   float64
 3   filhos            1586 non-null   float64
 4   fumante           564 non-null    object 
 5   regiao            2772 non-null   object 
 6   custos_medicos    2772 non-null   float64
 7   doencas_cronicas  1513 non-null   float64
 8   consultas_ano     2772 non-null   int64  
 9   atividade_fisica  2772 non-null   int64  
 10  dieta_saudavel    2772 non-null   float64
 11  uso_medicamentos  2772 non-null   int64  
dtypes: float64(5), int64(4), object(3)
memory usage: 260.0+ KB


### Limpeza dos Dados

A limpeza dos dados é uma etapa do pré-processamento de dados que envolve a identificação e correção de dados incompletos, inconsistentes, incorretos, irrelevantes ou duplicados em um conjunto de dados. Esses dados inválidos ou irrelevantes podem ser gerados por erros humanos, falhas técnicas ou de software, ou até mesmo por problemas no processo de coleta dos dados.

A limpeza dos dados envolve várias técnicas, como a remoção de valores duplicados, preenchimento de valores faltantes, correção de erros de digitação, normalização de dados, entre outras.

## Valores faltantes

Tratar os valores faltantes é uma tarefa essencial durante o pré-processamento de dados, pois, valores faltantes podem prejudicar o resultado final do modelo. Antes de iniciar o tratamento dos dados faltantes, é preciso identificar o motivo desses valores faltantes e se há algum valor determinado para esses casos.

Uma vez que já sabemos um pouco mais sobre esses valores faltantes, é necessário decidir se serão substituídos ou não, e qual o valor que deverá ser adicionado.  Aqui estão algumas alternativas para trabalhar com esses valores faltantes:


- Valores como “Não disponível” ou “NA” podem ser utilizados para substituir os valores ausentes.
- Substituir os valores manualmente, o que é inviável para grandes conjuntos de dados.
- Utilizar o valor médio/mediano da variável.
- Utilizar um algoritmo (ex. Árvore de Decisão) para definir o valor mais provável

É importante lembrar que a escolha da técnica de tratamento de valores faltantes deve ser baseada nas características do conjunto de dados e no tipo de análise que será realizada. Além disso, é recomendável que os dados tratados sejam avaliados para verificar se a técnica escolhida não gerou novos problemas, como distorção ou perda de informação.





Antes de começar a tratar os valores faltantes, é necessário avaliar onde estão os dados ausentes. Podemos indentificá-los da seguinte forma:

In [3]:
base_dados.isnull().sum()

Unnamed: 0,0
idade,0
sexo,0
IMC,0
filhos,1186
fumante,2208
regiao,0
custos_medicos,0
doencas_cronicas,1259
consultas_ano,0
atividade_fisica,0


Linhas ou colunas com muitos valores ausentes não significativos podem ser excluídas com a função **dropna** dos pandas. Os parâmetros mais importantes da função são:

- axis: 0 para linhas, 1 para colunas
- inplace: atualizar os dados

In [4]:
#Excluir TODAS as observações que contenham NA
base_dados.dropna()

Unnamed: 0,idade,sexo,IMC,filhos,fumante,regiao,custos_medicos,doencas_cronicas,consultas_ano,atividade_fisica,dieta_saudavel,uso_medicamentos
29,31,masculino,36.300,2.0,sim,sudoeste,38711.00000,1.0,7,0,0.431671,2
38,35,masculino,36.670,1.0,sim,nordeste,39774.27630,1.0,1,5,0.476480,1
52,48,masculino,28.000,1.0,sim,sudoeste,23568.27200,2.0,0,4,0.617901,2
55,58,masculino,36.955,2.0,sim,noroeste,47496.49445,1.0,2,2,0.815027,1
69,28,masculino,23.980,3.0,sim,sudeste,17663.14420,2.0,9,2,0.603814,2
...,...,...,...,...,...,...,...,...,...,...,...,...
2735,52,masculino,41.800,2.0,sim,sudeste,47269.85400,1.0,3,0,0.526572,2
2744,32,masculino,33.630,1.0,sim,nordeste,37607.52770,1.0,5,5,0.351813,2
2764,22,feminino,31.020,3.0,sim,sudeste,35595.58980,1.0,4,0,0.742004,2
2765,47,masculino,36.080,1.0,sim,sudeste,42211.13820,3.0,3,4,0.555660,3


Note que a função retirou todas as variáveis que continham valores faltantes. Para excluir uma coluna que possui valores faltantes, basta alterar o argumento **_axis_**

In [5]:
#Excluir Colunas com NA
base_dados.dropna(axis=1)

Unnamed: 0,idade,sexo,IMC,regiao,custos_medicos,consultas_ano,atividade_fisica,dieta_saudavel,uso_medicamentos
0,19,feminino,27.900,sudoeste,16884.92400,4,6,0.390154,2
1,18,masculino,33.770,sudeste,1725.55230,7,3,0.332918,0
2,28,masculino,33.000,sudeste,4449.46200,2,4,0.155488,0
3,33,masculino,22.705,noroeste,21984.47061,2,2,0.524512,4
4,32,masculino,28.880,noroeste,3866.85520,3,3,0.590419,1
...,...,...,...,...,...,...,...,...,...
2767,47,feminino,45.320,sudeste,8569.86180,4,4,0.378308,1
2768,21,feminino,34.600,sudoeste,2020.17700,6,7,0.678442,1
2769,19,masculino,26.030,noroeste,16450.89470,6,6,0.543625,0
2770,23,masculino,18.715,noroeste,21595.38229,4,4,0.441058,3


Por enquanto, os valores faltantes foram retirados apenas na visão temporária dos dados. Para alterar o valor do objeto original, basta utilizar o argumento **inplace=True**

In [None]:
#Remover os valores faltantes direto na base de dados
base_dados.dropna(inplace=True)
base_dados.head(3)

Unnamed: 0,idade,sexo,IMC,filhos,fumante,regiao,custos_medicos,doencas_cronicas,consultas_ano,atividade_fisica,dieta_saudavel,uso_medicamentos
29,31,masculino,36.3,2.0,sim,sudoeste,38711.0,1.0,7,0,0.431671,2
38,35,masculino,36.67,1.0,sim,nordeste,39774.2763,1.0,1,5,0.47648,1
52,48,masculino,28.0,1.0,sim,sudoeste,23568.272,2.0,0,4,0.617901,2


Após a substituição dos valores faltantes, agora é só atualizar o valor do index utilizando a função **reset_index**

In [None]:
base_dados.reset_index(inplace=True) #atualizar o índice da base de dados
base_dados.head(3)

Unnamed: 0,index,idade,sexo,IMC,filhos,fumante,regiao,custos_medicos,doencas_cronicas,consultas_ano,atividade_fisica,dieta_saudavel,uso_medicamentos
0,29,31,masculino,36.3,2.0,sim,sudoeste,38711.0,1.0,7,0,0.431671,2
1,38,35,masculino,36.67,1.0,sim,nordeste,39774.2763,1.0,1,5,0.47648,1
2,52,48,masculino,28.0,1.0,sim,sudoeste,23568.272,2.0,0,4,0.617901,2


**ATENÇÃO**: A exclusão de valores faltantes pode resultar na perda de informações relevantes, reduzindo a qualidade do modelo. Antes de remover esses valores, é importante avaliar se a quantidade de dados excluída pode afetar a análise.

Além disso, é recomendável avaliar se a quantidade de dados removidos não afetou significativamente a análise dos dados. Para alguns casos, pode ser mais adequado preencher os valores faltantes com medidas estatísticas ou usar técnicas de imputação de dados.

---

### Imputação de dados

Em muitos casos, remover observações não é a melhor opção, pois pode resultar na perda de informações essenciais. A imputação de dados permite substituir valores ausentes por estimativas, garantindo que todas as observações possam ser utilizadas na análise.

A imputação de dados é uma técnica de pré-processamento de dados que consiste em preencher valores ausentes em um conjunto de dados utilizando valores estimados, com base em informações disponíveis nos próprios dados ou em outras fontes.


Existem muitas técnicas de imputação de dados, entre elas:

- **Utilizar a média, mediana ou moda**: Nesse método, substitui-se os valores faltante por alguma métrica de posição de cada variável. É uma técnica simples e rápida de ser implementada, mas pode gerar distorções nos dados se os valores ausentes estiverem concentrados em uma determinada faixa de valores ou se houver um volume muito alto de valores ausentes.

- **Imputação por regressão**: Utiliza-se a regressão linear para estimar os valores ausentes com base nas demais variáveis do conjunto de dados. É uma técnica mais complexa do que o preenchimento por média, mediana ou moda, mas pode gerar estimativas mais precisas, especialmente se houver relação linear entre as variáveis.

- **K-vizinhos mais próximos (K-NN)**: essa técnica consiste em preencher os valores ausentes utilizando os vizinhos mais próximos em um conjunto de dados. É uma técnica que leva em conta a relação entre as observações, mas pode gerar estimativas imprecisas se o conjunto de dados for muito grande ou se houver muitos valores ausentes.

- **Imputação por modelo**: Utiliza-se modelos de aprendizado de máquina para estimar os valores faltantes. É uma técnica que pode gerar estimativas precisas se o modelo utilizado for adequado, mas também pode ser computacionalmente intensiva e requerer um conjunto de dados grande o suficiente para treinar o modelo.

A escolha da técnica de imputação de dados mais adequada depende das características da base, do tipo de análise a ser realizada e da quantidade de valores ausentes no conjunto de dados. É importante avaliar se a técnica de imputação de dados escolhida não gerou distorções ou perda de informação nos dados.


---

#### Variáveis numéricas

Uma maneira simples de fazer imput de dados com variáveis numéricas é preenchê-las com algum valor conhecido ou estimado. Para isso, podemos utilizar o método **fillna()** do Pandas da seguinte forma:

#### Com valor pré-definido

Para substituir valores faltantes (`NaN`) por zero (0), ou qualquer outro valor já definido, podemos utilizar o método `.fillna()`:

In [None]:
# Carregar base de dados
base_dados = pd.read_csv('/content/custo_medico_processamento.csv', decimal = ',')

In [None]:
#Substituir valores faltante por 0
base_dados['filhos'] = base_dados['filhos'].fillna(0)

In [None]:
base_dados['filhos'].isnull().sum()

0

#### Utilizando a média

Para substituir os (`NaN`) pela média, também podemos utilizar o método `.fillna()`:

In [7]:
# Carregar base de dados
base_dados = pd.read_csv('/content/custo_medico_processamento.csv', decimal = ',')

In [8]:
# Substituir valores faltantes pela média
media_filhos = base_dados['filhos'].mean()
base_dados['filhos'] = base_dados['filhos'].fillna(media_filhos)

Isso substitui todos os valores `NaN` na coluna `'filhos'` pela média dos valores dessa mesma coluna.

Embora a imputação de dados por média seja uma técnica simples e muito utilizada para valores faltantes em variáveis numéricas, ela pode apresentar algumas limitações e problemas como:

- Perda de Variabilidade
- Distorção da distribuição
- Viés de Amostragem
- Sensibilidade a outliers

É importante avaliar cuidadosamente as limitações e os problemas da imputação por média antes de decidir utilizá-la como técnica de imputação de dados.



---



#### Variáveis Categóricas


Existem várias técnicas para imputação de valores faltantes em variáveis categóricas, como por exemplo:
- Imputação por moda
- Imputação por KNN
- Imputação por regressão logística
- Imputação por correspondência
- E muitas outras formas.

Cada técnica tem suas próprias vantagens e desvantagens e pode ser mais ou menos adequada para diferentes conjuntos de dados e objetivos de análise. É importante avaliar cuidadosamente as opções disponíveis e escolher a técnica de imputação mais apropriada para cada caso específico.

Uma das formas mais utilizadas para preencher os valores faltantes de uma variável categórica, é utilizando a substituição por um valor pré-determinado, por exemplo:

In [None]:
#Carregar base de dados
base_dados = pd.read_csv('/content/custo_medico_processamento.csv', decimal = ',')

In [None]:
# Frequência absolutas valores categóricos (drop NA mantém os misssings)
base_dados[['fumante']].value_counts(dropna=False)

Unnamed: 0_level_0,count
fumante,Unnamed: 1_level_1
,2208
sim,564


In [None]:
# Substituição por um valor definido em cada coluna
base_dados = base_dados.fillna({'fumante': 'nao'})

#### Juntando tudo em uma única operação

In [None]:
base_dados = base_dados.fillna({'fumante': 'nao',
                                'filhos': 0,
                                'doencas_cronicas':0
                                })

## Transformação dos Dados

A Transformação de dados tem como objetivo modificar a distribuição ou formato dos dados para torná-los mais adequados para análise. As transformações de dados podem ser necessárias por vários motivos, incluindo:

- Reduzir a variabilidade nos dados e torná-los mais homogêneos;
- Melhorar a normalidade dos dados, o que é importante para muitas análises estatísticas;
- Facilitar a interpretação dos dados;
- Tornar os dados mais adequados para um determinado modelo de análise.


Algumas das técnicas mais utilizadas para a transformação de dados incluem:

>- **Normalização:** É útil para evitar que uma variável com uma escala maior domine a análise.
>- **Padronização:** Técnica parecida com a normalização, mas envolve a transformação dos dados para ter uma distribuição normal padrão com média zero e desvio padrão igual a um.
>- **Transformação logarítmica:** Muito utilizada para transformar dados positivos assimétricos para torná-los mais simétricos. Isso é útil para análises estatísticas que pressupõem normalidade dos dados.
>- **Discretização:** Técnica que consiste em transformar variáveis contínuas em variáveis discretas. Isso pode ser útil para reduzir a complexidade dos dados ou para torná-los mais adequados para um determinado modelo de análise.


Além dessas técnicas, existem muitos outros métodos de transformação de dados que podem ser utilizadas para ajudar a tornar os dados mais adequados para análise. A escolha da técnica dependerá dos objetivos específicos da análise e das características dos dados que estão sendo analisados.

### Quando padronizar as variáveis?

- Modelos baseados em distância (necessário padronizar)

  - Modelos como KNN, Regressão Logística, SVM e Redes Neurais são sensíveis à escala das variáveis, então a padronização melhora o desempenho.

  - Exemplos:
    - KNN → Mede distância entre pontos, logo, escalas diferentes afetam a classificação.
    - SVM → Depende da magnitude dos dados para definir hiperplanos.

- Se as variáveis possuem escalas muito diferentes

  - Exemplo:
   - `idade` varia entre 18 e 64, enquanto `custos_medicos` pode chegar a 63.000.
   - Como a diferença de escala é grande, pode ser útil padronizar para evitar que uma variável domine o modelo.



#### **Escalonamento padrão**
Técnica de normalização que transforma os dados para que eles possuam uma distribuição normal padrão com média zero e desvio padrão igual a um.

In [None]:
# Criar uma cópia da base de dados
base_dados2 = base_dados.copy()

In [None]:
#Visualizar variáveis numéricas
base_dados2.select_dtypes(include=['int64','float64']).head()

Unnamed: 0,idade,IMC,filhos,custos_medicos,doencas_cronicas,consultas_ano,atividade_fisica,dieta_saudavel,uso_medicamentos
0,19,27.9,0.0,16884.924,0.0,4,6,0.390154,2
1,18,33.77,1.0,1725.5523,2.0,7,3,0.332918,0
2,28,33.0,3.0,4449.462,0.0,2,4,0.155488,0
3,33,22.705,0.0,21984.47061,0.0,2,2,0.524512,4
4,32,28.88,0.0,3866.8552,0.0,3,3,0.590419,1


In [None]:
#Utilizando o sklearn para a padronização
from sklearn.preprocessing import StandardScaler

# Escolher colunas
colunas_escolhidas = ['custos_medicos','dieta_saudavel','IMC']

# Aplicar StandardScaler apenas nas colunas escolhidas
scaler = StandardScaler()
dados_padronizados = scaler.fit_transform(base_dados2[colunas_escolhidas]) #aplicar a padronização

base_dados2[['custos_medicos','dieta_saudavel','IMC']] = dados_padronizados #salvar na base de dados original

In [None]:
#Visualizar os resultados
base_dados2.head()

Unnamed: 0,idade,sexo,IMC,filhos,fumante,regiao,custos_medicos,doencas_cronicas,consultas_ano,atividade_fisica,dieta_saudavel,uso_medicamentos
0,19,feminino,-0.457114,0.0,sim,sudoeste,0.298245,0.0,4,6,-0.543288,2
1,18,masculino,0.500731,1.0,nao,sudeste,-0.949483,2.0,7,3,-0.831774,0
2,28,masculino,0.375085,3.0,nao,sudeste,-0.725285,0.0,2,4,-1.726066,0
3,33,masculino,-1.304814,0.0,nao,noroeste,0.717976,0.0,2,2,0.133909,4
4,32,masculino,-0.297201,0.0,nao,noroeste,-0.773238,0.0,3,3,0.466099,1


#### **Escalonamento mínimo-máximo (MinMax):**
Técnica de normalização de variáveis que dimensiona todos os valores de uma variável para uma faixa entre 0 e 1.

In [None]:
# Criar uma cópia da base de dados
base_dados2 = base_dados.copy()

In [None]:
#Visualizar variáveis numéricas
base_dados2.select_dtypes(include=['int64','float64']).head()

Unnamed: 0,idade,IMC,filhos,custos_medicos,doencas_cronicas,consultas_ano,atividade_fisica,dieta_saudavel,uso_medicamentos
0,19,27.9,0.0,16884.924,0.0,4,6,0.390154,2
1,18,33.77,1.0,1725.5523,2.0,7,3,0.332918,0
2,28,33.0,3.0,4449.462,0.0,2,4,0.155488,0
3,33,22.705,0.0,21984.47061,0.0,2,2,0.524512,4
4,32,28.88,0.0,3866.8552,0.0,3,3,0.590419,1


In [None]:
#Utilizando o sklearn para o escalonamento
from sklearn.preprocessing import MinMaxScaler

# Escolher colunas
colunas_escolhidas = ['custos_medicos','dieta_saudavel','IMC']

# Aplicar StandardScaler apenas nas colunas escolhidas
scaler = MinMaxScaler() #Definir os parâmetros da função
dados_padronizados = scaler.fit_transform(base_dados2[colunas_escolhidas]) #aplicar a padronização

base_dados2[['custos_medicos','dieta_saudavel','IMC']] = dados_padronizados #salvar na base de dados original

In [None]:
#Visualizar os resultados
base_dados2.head()

Unnamed: 0,idade,sexo,IMC,filhos,fumante,regiao,custos_medicos,doencas_cronicas,consultas_ano,atividade_fisica,dieta_saudavel,uso_medicamentos
0,19,feminino,0.321227,0.0,sim,sudoeste,0.251611,0.0,4,6,0.390154,2
1,18,masculino,0.47915,1.0,nao,sudeste,0.009636,2.0,7,3,0.332918,0
2,28,masculino,0.458434,3.0,nao,sudeste,0.053115,0.0,2,4,0.155488,0
3,33,masculino,0.181464,0.0,nao,noroeste,0.33301,0.0,2,2,0.524512,4
4,32,masculino,0.347592,0.0,nao,noroeste,0.043816,0.0,3,3,0.590419,1


A normalização ajusta os valores para uma escala fixa, como `[0,1]`, sendo ideal para modelos baseados em distância, como KNN e Redes Neurais.

Já a padronização transforma os dados para uma distribuição com média `0` e desvio padrão `1`, sendo mais adequada para modelos que assumem normalidade, como Regressão Linear e SVM.

---

## Variáveis catetegóricas

#### Codificação da variável (Label Encoding)

Essa técnica converte variáveis categóricas em valores numéricos inteiros. Cada categoria recebe um número exclusivo.

Essa técnica é simples e eficiente, ideal para variáveis com poucas categorias, porém, pode induzir uma ordem artificial entre as categorias, o que pode impactar algoritmos que consideram a relação entre os valores (como Regressão Linear).


In [None]:
# Criar uma cópia da base de dados
base_dados2 = base_dados.copy()

In [None]:
# Visualizar tabela de frequência da variável fumante
base_dados2[['fumante']].value_counts()

Unnamed: 0_level_0,count
fumante,Unnamed: 1_level_1
nao,2208
sim,564


In [None]:
# Carregar Biblioteca do Label Encoder
from sklearn.preprocessing import LabelEncoder

# Carregar codificador
le_fumante = LabelEncoder()

In [None]:
# Aplicar label encoder em uma nova coluna
base_dados2['fumante_encoded'] = le_fumante.fit_transform(base_dados2['fumante'])
base_dados2[['fumante','fumante_encoded']].head()

Unnamed: 0,fumante,fumante_encoded
0,sim,1
1,nao,0
2,nao,0
3,nao,0
4,nao,0


In [None]:
# Criar o dicionário mapeando os valores numéricos para as categorias originais
dicionario_label = dict(enumerate(le_fumante.classes_))
print(dicionario_label)

{0: 'nao', 1: 'sim'}


#### Codificação variável ordinal (Ordinal Encoding)
Essa técnica converte variáveis categóricas em valores numéricos, mantendo uma ordem hierárquica entre as categorias. Diferente do Label Encoder, que atribui números arbitrariamente, o Ordinal Encoder respeita uma ordem lógica definida pelo usuário.

In [None]:
#Carregar a base de dados contendo valores numéricos
base_dados2[['regiao']].value_counts()

Unnamed: 0_level_0,count
regiao,Unnamed: 1_level_1
sudeste,766
sudoeste,684
noroeste,664
nordeste,658


In [None]:
# Carregar biblioteca do Ordinal Encoder
from sklearn.preprocessing import OrdinalEncoder

In [None]:
# Definir ordem das categorias
oe_regiao = OrdinalEncoder(categories=[['sudeste','sudoeste','noroeste','nordeste']])

In [None]:
# Aplicar label encoder em uma nova coluna
base_dados2[['regiao_encoded']] = oe_regiao.fit_transform(base_dados2[['regiao']])
base_dados2[['regiao','regiao_encoded']].head()

Unnamed: 0,regiao,regiao_encoded
0,sudoeste,1.0
1,sudeste,0.0
2,sudeste,0.0
3,noroeste,2.0
4,noroeste,2.0


#### Codificação One-Hot Encoding e Dummy

Diferentes métodos de codificação são usados para converter variáveis categóricas em valores numéricos:

- **One-Hot Encoding:** Cria colunas binárias para cada categoria (ideal para variáveis sem ordem).
- **Dummy Encoding:** Similar ao One-Hot, mas exclui uma categoria para evitar multicolinearidade (melhor para modelos lineares)

Cada categoria da variável categórica é transformada em uma nova variável binária que indica se a observação pertence ou não a essa categoria. Podemos utilizar a função **get_dummies()** do pandas para essa transformação.

In [None]:
#visualizar coluna sexo
base_dados2['sexo'].head()

Unnamed: 0,sexo
0,feminino
1,masculino
2,masculino
3,masculino
4,masculino


In [None]:
# Gerar o one-hot encoding
base_dados2 = pd.get_dummies(base_dados2,
                             columns=['sexo'],
                             dtype=int)

In [None]:
base_dados2.head()

Unnamed: 0,idade,IMC,filhos,fumante,regiao,custos_medicos,doencas_cronicas,consultas_ano,atividade_fisica,dieta_saudavel,uso_medicamentos,fumante_encoded,regiao_encoded,sexo_feminino,sexo_masculino
0,19,27.9,0.0,sim,sudoeste,16884.924,0.0,4,6,0.390154,2,1,1.0,1,0
1,18,33.77,1.0,nao,sudeste,1725.5523,2.0,7,3,0.332918,0,0,0.0,0,1
2,28,33.0,3.0,nao,sudeste,4449.462,0.0,2,4,0.155488,0,0,0.0,0,1
3,33,22.705,0.0,nao,noroeste,21984.47061,0.0,2,2,0.524512,4,0,2.0,0,1
4,32,28.88,0.0,nao,noroeste,3866.8552,0.0,3,3,0.590419,1,0,2.0,0,1


#### Codificação Dummy

In [None]:
# Criar uma cópia da base de dados
base_dados2 = base_dados.copy()

# Gerar variável Dummy
base_dados2 = pd.get_dummies(base_dados2,columns=['sexo'],
                             drop_first=True,
                             dtype=int)

In [None]:
#Visualizar dummy
base_dados2.head()

Unnamed: 0,idade,IMC,filhos,fumante,regiao,custos_medicos,doencas_cronicas,consultas_ano,atividade_fisica,dieta_saudavel,uso_medicamentos,sexo_masculino
0,19,27.9,0.0,sim,sudoeste,16884.924,0.0,4,6,0.390154,2,0
1,18,33.77,1.0,nao,sudeste,1725.5523,2.0,7,3,0.332918,0,1
2,28,33.0,3.0,nao,sudeste,4449.462,0.0,2,4,0.155488,0,1
3,33,22.705,0.0,nao,noroeste,21984.47061,0.0,2,2,0.524512,4,1
4,32,28.88,0.0,nao,noroeste,3866.8552,0.0,3,3,0.590419,1,1


A escolha entre One-Hot Encoding e Dummy Encoding vair depender do tipo de modelo que será utilizado e do tipo dos dados.

- One-Hot Encoding é ideal para modelos que não assumem relações lineares entre variáveis, como KNN, Redes Neurais e SVM, pois representa cada categoria de forma independente. No entanto, pode aumentar a dimensionalidade do conjunto de dados, o que pode ser um problema para bases muito grandes.

- Dummy Encoding é uma alternativa eficiente para modelos estatísticos, como Regressão Linear e Logística, pois evita multicolinearidade ao remover uma das categorias e usá-la como referência. Isso melhora a estabilidade dos coeficientes do modelo.

Para mais funções de processamento de tratamento dos dados, acesse a documentação do sklearn em: [module-sklearn.preprocessing](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing)