# De olho no erro

Módulo 9

Aprenda a identificar e corrigir os erros mais comuns e torne seu código mais eficiente e confiável.

## 01 - Esquecer de verificar e tratar valores nulos.

- **Descrição: Iniciantes** frequentemente esquecem de verificar e tratar valores nulos em seus conjuntos de dados, o que pode levar a erros em análises subsequentes ou na construção de modelos de machine learning.

- **Tipo de Erro**: Erro lógico.

In [None]:
# Exemplo de código

import pandas as pd

data = pd.read_csv('dados.csv')
# Esquecendo de verificar valores nulos
print(data.head())

### Correção 

Passo 1: Utilize o método `isnull().sum()` para verificar a quantidade de valores nulos em cada coluna.

Passo 2: Decida como tratar os valores nulos (remover ou substituir).

Passo 3: Aplique a técnica escolhida, como `dropna()` para remover registros com valores nulos.

In [None]:
import pandas as pd

data = pd.read_csv('dados.csv')
# Verificando valores nulos
print(data.isnull().sum())
# Tratando valores nulos
data = data.dropna()
print(data.head())

## 02 - Não padronizar ou normalizar os dados antes da análise.

- **Descrição**: Iniciantes podem esquecer de padronizar ou normalizar os dados, o que pode levar a resultados distorcidos em análises estatísticas e modelos de machine learning.

- **Tipo de Erro**: Erro lógico.

In [None]:
# Exemplo
from sklearn.preprocessing import MinMaxScaler

data = pd.read_csv('dados.csv')
# Esquecendo de normalizar os dados
print(data[['idade', 'salário']].head())

### Correção 

- **Passo 1**: Importe o método de normalização ou padronização desejado, como `MinMaxScaler`.

- **Passo 2**: Aplique o método aos dados relevantes.

- **Passo 3**: Verifique os dados normalizados ou padronizados.

In [None]:
from sklearn.preprocessing import MinMaxScaler

data = pd.read_csv('dados.csv')
scaler = MinMaxScaler()
data[['idade', 'salário']] = scaler.fit_transform(data[['idade', 'salário']])
print(data[['idade', 'salário']].head())

## 03 - Não codificar variáveis categóricas.

- **Descrição**: Iniciantes podem esquecer de transformar variáveis categóricas em numéricas, o que é essencial para a maioria dos algoritmos de machine learning.

- **Tipo de Erro**: Erro lógico.

In [None]:
#Exemplo

import pandas as pd

data = pd.read_csv('dados.csv')
# Esquecendo de codificar variáveis categóricas
print(data['estado'].head())

### Correção

- **Passo** 1: Identifique as variáveis categóricas no conjunto de dados.

- **Passo** 2: Utilize métodos como `get_dummies` para transformar essas variáveis em colunas binárias.

- **Passo** 3: Verifique o DataFrame resultante para garantir que a codificação foi aplicada corretamente.

In [None]:
import pandas as pd

data = pd.read_csv('dados.csv')
# Codificando variáveis categóricas
data = pd.get_dummies(data, columns=['estado'])
print(data.head())

## 04 - Não realizar análise exploratória de dados (EDA).

**Descrição**: Iniciantes podem pular a etapa de análise exploratória de dados, perdendo insights importantes sobre a distribuição e características dos dados.

**Tipo de Erro**: Erro lógico.


In [None]:
# Exemplo

import pandas as pd

data = pd.read_csv('dados.csv')
# Esquecendo de realizar EDA

### Correção 

- **Passo** 1: Utilize métodos como `describe()` para obter estatísticas descritivas dos dados.

- **Passo** 2: Utilize bibliotecas de visualização como Seaborn e Matplotlib para criar gráficos exploratórios.

- **Passo** 3: Analise os gráficos e estatísticas para obter insights sobre os dados.

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

data = pd.read_csv('dados.csv')
# Realizando EDA
print(data.describe())
sns.histplot(data['idade'])
plt.show()

## 05 - Não realizar engenharia de features.

**Descrição**: Iniciantes podem não realizar engenharia de features, perdendo a oportunidade de melhorar o desempenho dos modelos de machine learning.

**Tipo de Erro**: Erro lógico.

In [None]:
# Exemplo

data = pd.read_csv('dados.csv')
# Esquecendo de realizar engenharia de features

### Correção 

- **Passo** 1: Identifique possíveis novas features que podem ser criadas a partir das existentes.

- **Passo** 2: Utilize transformações matemáticas ou combinações de colunas para criar novas features.

- **Passo** 3: Verifique o impacto das novas features no desempenho dos modelos.

In [None]:
import pandas as pd
import numpy as np

data = pd.read_csv('dados.csv')
# Realizando engenharia de features
data['log_salario'] = np.log(data['salário'] + 1)
print(data.head())