## Pré-processamento de dados e algoritmos de Machine Learning
O pré-processamento de dados é uma etapa essencial no aprendizado de máquina. Ele garante que os dados sejam de boa qualidade, compatíveis com os algoritmos e eficientes para treinamento. Em outras palavras, preparar os dados adequadamente garante que os modelos possam aprender de maneira eficaz, generalizar bem para novos dados e fornecer previsões confiáveis. <br>

Para que um modelo de aprendizado de máquina funcione bem, os dados precisam atender a algumas condições essenciais:
- **Formato Numérico**: Dados devem ser numéricos; variáveis categóricas precisam ser convertidas.
- **Escala Uniforme**: Normalização ou padronização é necessária para que todas as variáveis estejam na mesma escala.
- **Sem Valores Ausentes**: Dados não podem ter valores faltantes; é preciso tratá-los antes do uso.
- **Consistência de dados**: Os dados devem ser consistentes em termos de formato e unidade. Por exemplo, se uma coluna representa a idade, todos os valores devem ser inteiros ou reais e estar na mesma unidade (anos, meses, etc.).

### Etapas necessárias:

1. Codificação de Variáveis Categóricas <br>
-> É o processo de transformar as variáveis categóricas em variáveis numéricas.

- One-Hot Encoding: Transformar variáveis categóricas em variáveis binárias para que possam ser usadas em modelos de aprendizado de máquina.<br>
<br>
![image-3.png](attachment:image-3.png)

**Use One-Hot Encoding** quando as categorias não têm uma ordem natural e você quer representar cada categoria como uma coluna separada. Exemplo: Atributos como "Cor" (Vermelho, Verde, Azul), onde não existe uma ordem natural.

- Label Encoding: Atribuir um número inteiro a cada categoria.<br>
<br>
![image.png](attachment:image.png)

**Use Label Encoding** quando as categorias têm uma ordem ou quando você tem um número limitado de categorias que podem ser codificadas diretamente como números. Exemplo:
Atributos como "Tamanho" (Pequeno, Médio, Grande) que têm uma ordem natural.

------

2. Normalização ou Padronização dos dados <br>
Ex: tem casos que uma escala é muito maior que a outra. É desproporcional, como no caso da quantidade de filhos e salário, por exemplo. O maior salário chega a ser 10.000 e o maior número de filhos chega a ser 12. De 10.000 para 12 é muito desproporcional. <br>

    → Como as escalas são muito diferentes, um dos atributos acaba não interferindo em praticamente nada no resultado da distância. E é importante perceber que esse tipo de situação ocorre com frequência em conjuntos de dados reais. <br>

- Min-Max Scaling <br>
    Existem diversas formas de tratar essa situação. Uma delas é uma técnica chamada **Min-Max Scaling**, que transforma os dados deixando-os no intervalo [0,1].

Exemplo de código:

In [None]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# Criando um DataFrame de exemplo
data = {
    'A': [10, 20, 30, 40, 50],
    'B': [100, 200, 300, 400, 500],
    'C': [1, 2, 3, 4, 5]
}

df = pd.DataFrame(data)

# Exibindo o DataFrame original
print("DataFrame Original:")
print(df)

# Inicializando o Min-Max Scaler
scaler = MinMaxScaler()

# Aplicando o Min-Max Scaler
df_scaled = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)

# Exibindo o DataFrame escalonado
print("\nDataFrame Escalonado (Min-Max Scaling):")
print(df_scaled)

Saída: <br><br>
![image.png](attachment:image.png)

Outra técnica utilizada é o **Z-Score Normalization (Padronização):** 
- Z-Score Normalization (Padronização)
Esta técnica transforma os dados para que tenham uma média de 0 e um desvio padrão de 1. É útil quando os dados têm uma distribuição gaussiana (normal) e é comum em algoritmos que assumem a normalidade dos dados.

In [None]:
import pandas as pd
from sklearn.preprocessing import StandardScaler

# Criando um DataFrame de exemplo
data = {
    'A': [10, 20, 30, 40, 50],
    'B': [100, 200, 300, 400, 500],
    'C': [1, 2, 3, 4, 5]
}

df = pd.DataFrame(data)

# Exibindo o DataFrame original
print("DataFrame Original:")
print(df)

# Inicializando o Standard Scaler
scaler = StandardScaler()

# Aplicando a padronização
df_scaled = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)

# Exibindo o DataFrame escalonado
print("\nDataFrame Escalonado (Z-Score Normalization):")
print(df_scaled)


Saída: <br><br>
![image.png](attachment:image.png)

##### Por que valores negativos?
Os números negativos na Z-Score Normalization (Padronização) são um resultado natural da fórmula utilizada para calcular o Z-score. Vamos entender por que isso acontece:
- Fórmula do Z-Score 
A fórmula para calcular o Z-score de um valor x é:
![image.png](attachment:image.png)

onde: <br>

𝑥 é o valor original <br>
𝜇 é a média dos dados, <br>
𝜎 é o desvio padrão dos dados. 

<br>

A interpretação do Z-Score:

- Valores Abaixo da Média:
Se um valor tem um Z-Score negativo, isso significa que ele está abaixo da média do conjunto de dados. Quanto mais negativo for o Z-Score, mais distante esse valor está da média.

- Valores na Média:
Um Z-Score de zero indica que o valor está exatamente na média do conjunto de dados. Isso significa que não é nem maior nem menor em relação à média.

- Valores Acima da Média:
Quando o Z-Score é positivo, o valor está acima da média. Valores com Z-Scores mais altos indicam que estão mais distantes da média em direção aos valores mais altos do conjunto.

[![Exercícios](https://img.shields.io/badge/-%F0%9F%93%98_Exerc%C3%ADcios_para_praticar:_Pandas_e_matplotlib-blue?style=for-the-badge&color=007BFF)](https://github.com/biankyrou/data-science-lab/blob/main/Guia%20de%20Estudos/4-%20Pandas%20e%20Matplotlib/Exerc%C3%ADcios%20para%20praticar.ipynb)
<br>
[![Próximo Capítulo](https://img.shields.io/badge/-➡_Próximo_Capítulo:_Introdução_à_Machine_Learning-blue?style=for-the-badge&color=007BFF)](https://github.com/biankyrou/data-science-lab/blob/main/Guia%20de%20Estudos/5-%20Machine%20Learning/1-Introdu%C3%A7%C3%A3o.ipynb)