# Boas práticas

Módulo 9
Nesta seção, você encontrará informações importantes que te ajudarão a aplicara efetivamente o que aprendeu.

### Verificação e Tratamento de Dados Nulos
Antes de qualquer análise, é crucial verificar e tratar dados nulos. Dados incompletos podem distorcer os resultados das análises e modelos de machine learning. Utilize métodos como remoção de registros nulos ou imputação de valores para lidar com esses casos.

### Padronização e Normalização de Dados
Padronize e normalize os dados para garantir que todas as variáveis estejam na mesma escala. Isso é especialmente importante para algoritmos de machine learning que são sensíveis à escala dos dados. Utilize técnicas como `StandardScaler` e `MinMaxScaler` da biblioteca Scikit-learn.

### Codificação de Variáveis Categóricas
Transforme variáveis categóricas em numéricas para facilitar a análise e a construção de modelos. Métodos como One-Hot Encoding, Codificação Ordinal e Label Encoding são essenciais para essa transformação.

### Engenharia de Features
Crie novas features a partir das existentes para melhorar o desempenho dos modelos de machine learning. Técnicas como transformação logarítmica e criação de novas variáveis baseadas na interação entre outras variáveis são práticas comuns.

## Exemplo de utilização no mercado de trabalho:

- Previsão de Vendas: Empresas de varejo utilizam técnicas de padronização e normalização para ajustar dados históricos de vendas, permitindo a construção de modelos preditivos mais precisos.

- Análise de Clientes: Empresas de marketing utilizam codificação de variáveis categóricas para transformar dados demográficos e comportamentais em formatos que podem ser analisados por algoritmos de machine learning.

## Exemplo de código executável (em Python) que ilustra a padronização e normalização:

In [1]:
import pandas as pd
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# Exemplo de DataFrame
data = {'idade': [25, 45, 35, 50],
        'salário': [50000, 100000, 75000, 120000]}
df = pd.DataFrame(data)

# Padronização
scaler = StandardScaler()
df['idade_padronizada'] = scaler.fit_transform(df[['idade']])
df['salário_padronizado'] = scaler.fit_transform(df[['salário']])

# Normalização
min_max_scaler = MinMaxScaler()
df['idade_normalizada'] = min_max_scaler.fit_transform(df[['idade']])
df['salário_normalizado'] = min_max_scaler.fit_transform(df[['salário']])

print(df)

   idade  salário  idade_padronizada  salário_padronizado  idade_normalizada  \
0     25    50000          -1.432078            -1.377832                0.0   
1     45   100000           0.650945             0.522626                0.8   
2     35    75000          -0.390567            -0.427603                0.4   
3     50   120000           1.171700             1.282809                1.0   

   salário_normalizado  
0             0.000000  
1             0.714286  
2             0.357143  
3             1.000000  


Vamos discutir o código passo-a-passo:

```import pandas as pd```: Importa a biblioteca Pandas para manipulação de dados.

`from sklearn.preprocessing import StandardScaler, MinMaxScaler`: Importa as classes necessárias para padronização e normalização dos dados.

`data`: Cria um dicionário com dados de exemplo.

`df = pd.DataFrame(data)`: Converte o dicionário em um DataFrame do Pandas.

`scaler = StandardScaler()`: Inicializa o objeto StandardScaler.

`df['idade_padronizada'] = scaler.fit_transform(df[['idade']])`: Aplica a padronização na coluna 'idade' e cria uma nova coluna 'idade_padronizada'.

`df['salário_padronizado'] = scaler.fit_transform(df[['salário']])`: Aplica a padronização na coluna 'salário' e cria uma nova coluna 'salário_padronizado'.

`min_max_scaler = MinMaxScaler()`: Inicializa o objeto MinMaxScaler.

`df['idade_normalizada'] = min_max_scaler.fit_transform(df[['idade']])`: Aplica a normalização na coluna 'idade' e cria uma nova coluna 'idade_normalizada'.

`df['salário_normalizado'] = min_max_scaler.fit_transform(df[['salário']])`: Aplica a normalização na coluna 'salário' e cria uma nova coluna 'salário_normalizado'.

`print(df)`: Imprime o DataFrame resultante com as novas colunas padronizadas e normalizadas.