## Pr√©-processamento de dados e algoritmos de Machine Learning
O pr√©-processamento de dados √© uma etapa essencial no aprendizado de m√°quina. Ele garante que os dados sejam de boa qualidade, compat√≠veis com os algoritmos e eficientes para treinamento. Em outras palavras, preparar os dados adequadamente garante que os modelos possam aprender de maneira eficaz, generalizar bem para novos dados e fornecer previs√µes confi√°veis. <br>

Para que um modelo de aprendizado de m√°quina funcione bem, os dados precisam atender a algumas condi√ß√µes essenciais:
- **Formato Num√©rico**: Dados devem ser num√©ricos; vari√°veis categ√≥ricas precisam ser convertidas.
- **Escala Uniforme**: Normaliza√ß√£o ou padroniza√ß√£o √© necess√°ria para que todas as vari√°veis estejam na mesma escala.
- **Sem Valores Ausentes**: Dados n√£o podem ter valores faltantes; √© preciso trat√°-los antes do uso.
- **Consist√™ncia de dados**: Os dados devem ser consistentes em termos de formato e unidade. Por exemplo, se uma coluna representa a idade, todos os valores devem ser inteiros ou reais e estar na mesma unidade (anos, meses, etc.).

### Etapas necess√°rias:

1. Codifica√ß√£o de Vari√°veis Categ√≥ricas <br>
-> √â o processo de transformar as vari√°veis categ√≥ricas em vari√°veis num√©ricas.

- One-Hot Encoding: Transformar vari√°veis categ√≥ricas em vari√°veis bin√°rias para que possam ser usadas em modelos de aprendizado de m√°quina.<br>
<br>
![image-3.png](attachment:image-3.png)

**Use One-Hot Encoding** quando as categorias n√£o t√™m uma ordem natural e voc√™ quer representar cada categoria como uma coluna separada. Exemplo: Atributos como "Cor" (Vermelho, Verde, Azul), onde n√£o existe uma ordem natural.

- Label Encoding: Atribuir um n√∫mero inteiro a cada categoria.<br>
<br>
![image.png](attachment:image.png)

**Use Label Encoding** quando as categorias t√™m uma ordem ou quando voc√™ tem um n√∫mero limitado de categorias que podem ser codificadas diretamente como n√∫meros. Exemplo:
Atributos como "Tamanho" (Pequeno, M√©dio, Grande) que t√™m uma ordem natural.

------

2. Normaliza√ß√£o ou Padroniza√ß√£o dos dados <br>
Ex: tem casos que uma escala √© muito maior que a outra. √â desproporcional, como no caso da quantidade de filhos e sal√°rio, por exemplo. O maior sal√°rio chega a ser 10.000 e o maior n√∫mero de filhos chega a ser 12. De 10.000 para 12 √© muito desproporcional. <br>

    ‚Üí Como as escalas s√£o muito diferentes, um dos atributos acaba n√£o interferindo em praticamente nada no resultado da dist√¢ncia. E √© importante perceber que esse tipo de situa√ß√£o ocorre com frequ√™ncia em conjuntos de dados reais. <br>

- Min-Max Scaling <br>
    Existem diversas formas de tratar essa situa√ß√£o. Uma delas √© uma t√©cnica chamada **Min-Max Scaling**, que transforma os dados deixando-os no intervalo [0,1].

Exemplo de c√≥digo:

In [None]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# Criando um DataFrame de exemplo
data = {
    'A': [10, 20, 30, 40, 50],
    'B': [100, 200, 300, 400, 500],
    'C': [1, 2, 3, 4, 5]
}

df = pd.DataFrame(data)

# Exibindo o DataFrame original
print("DataFrame Original:")
print(df)

# Inicializando o Min-Max Scaler
scaler = MinMaxScaler()

# Aplicando o Min-Max Scaler
df_scaled = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)

# Exibindo o DataFrame escalonado
print("\nDataFrame Escalonado (Min-Max Scaling):")
print(df_scaled)

Sa√≠da: <br><br>
![image.png](attachment:image.png)

Outra t√©cnica utilizada √© o **Z-Score Normalization (Padroniza√ß√£o):** 
- Z-Score Normalization (Padroniza√ß√£o)
Esta t√©cnica transforma os dados para que tenham uma m√©dia de 0 e um desvio padr√£o de 1. √â √∫til quando os dados t√™m uma distribui√ß√£o gaussiana (normal) e √© comum em algoritmos que assumem a normalidade dos dados.

In [None]:
import pandas as pd
from sklearn.preprocessing import StandardScaler

# Criando um DataFrame de exemplo
data = {
    'A': [10, 20, 30, 40, 50],
    'B': [100, 200, 300, 400, 500],
    'C': [1, 2, 3, 4, 5]
}

df = pd.DataFrame(data)

# Exibindo o DataFrame original
print("DataFrame Original:")
print(df)

# Inicializando o Standard Scaler
scaler = StandardScaler()

# Aplicando a padroniza√ß√£o
df_scaled = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)

# Exibindo o DataFrame escalonado
print("\nDataFrame Escalonado (Z-Score Normalization):")
print(df_scaled)


Sa√≠da: <br><br>
![image.png](attachment:image.png)

##### Por que valores negativos?
Os n√∫meros negativos na Z-Score Normalization (Padroniza√ß√£o) s√£o um resultado natural da f√≥rmula utilizada para calcular o Z-score. Vamos entender por que isso acontece:
- F√≥rmula do Z-Score 
A f√≥rmula para calcular o Z-score de um valor x √©:
![image.png](attachment:image.png)

onde: <br>

ùë• √© o valor original <br>
ùúá √© a m√©dia dos dados, <br>
ùúé √© o desvio padr√£o dos dados. 

<br>

A interpreta√ß√£o do Z-Score:

- Valores Abaixo da M√©dia:
Se um valor tem um Z-Score negativo, isso significa que ele est√° abaixo da m√©dia do conjunto de dados. Quanto mais negativo for o Z-Score, mais distante esse valor est√° da m√©dia.

- Valores na M√©dia:
Um Z-Score de zero indica que o valor est√° exatamente na m√©dia do conjunto de dados. Isso significa que n√£o √© nem maior nem menor em rela√ß√£o √† m√©dia.

- Valores Acima da M√©dia:
Quando o Z-Score √© positivo, o valor est√° acima da m√©dia. Valores com Z-Scores mais altos indicam que est√£o mais distantes da m√©dia em dire√ß√£o aos valores mais altos do conjunto.

[![Exerc√≠cios](https://img.shields.io/badge/-%F0%9F%93%98_Exerc%C3%ADcios_para_praticar:_Pandas_e_matplotlib-blue?style=for-the-badge&color=007BFF)](https://github.com/biankyrou/data-science-lab/blob/main/Guia%20de%20Estudos/4-%20Pandas%20e%20Matplotlib/Exerc%C3%ADcios%20para%20praticar.ipynb)
<br>
[![Pr√≥ximo Cap√≠tulo](https://img.shields.io/badge/-‚û°_Pr√≥ximo_Cap√≠tulo:_Introdu√ß√£o_√†_Machine_Learning-blue?style=for-the-badge&color=007BFF)](https://github.com/biankyrou/data-science-lab/blob/main/Guia%20de%20Estudos/5-%20Machine%20Learning/1-Introdu%C3%A7%C3%A3o.ipynb)