# Boas Práticas

Nesta seção você encontrará informações importantes que te ajudarão a aplicar efetivamente o que aprendeu.

### Padronização de Dados
A padronização de dados é crucial para garantir a consistência e a comparabilidade dos dados. Isso inclui a padronização de nomes de colunas, a correção de erros de digitação e a formatação consistente dos dados. Padronizar os dados facilita a análise e a modelagem subsequente.

### Tratamento de Valores Ausentes
Identificar e tratar valores ausentes é essencial para evitar viés e garantir a precisão dos modelos preditivos. Técnicas como a exclusão de linhas com valores nulos ou a substituição desses valores pela média ou mediana são práticas comuns.

### Verificação e Correção de Tipos de Dados
Verificar e corrigir os tipos de dados é fundamental para análises preditivas precisas. A conversão de strings em números e a correção de tipos de dados incorretos garantem que os dados sejam interpretados corretamente pelos modelos.

### Identificação e Tratamento de Outliers
Outliers podem distorcer análises e modelos preditivos. Identificar e tratar outliers, seja removendo-os ou transformando-os, ajuda a melhorar a qualidade dos dados e a precisão das análises.

### Exemplo de utilização no mercado de trabalho:
**Setor Financeiro**: No setor financeiro, a padronização e a verificação de tipos de dados são essenciais para análises de crédito e detecção de fraudes. Dados inconsistentes podem levar a decisões erradas e prejuízos financeiros.


**Telecomunicações**: Em telecomunicações, o tratamento de valores ausentes e a análise de churn são cruciais para prever a rotatividade de clientes e desenvolver estratégias de retenção.

### Exemplo de código executável (em Python) que ilustra o pré-processamento de dados:

In [None]:
import pandas as pd

# Carregar dados
df = pd.read_csv('dados.csv')

# Verificar tipos de dados
print(df.info())

# Corrigir tipos de dados
df['salario_anual'] = df['salario_anual'].str.replace(',', '').astype(float)

# Identificar valores nulos
print(df.isnull().sum())

# Substituir valores nulos pela mediana
df['salario_anual'].fillna(df['salario_anual'].median(), inplace=True)

# Padronizar nomes de colunas
df.columns = [col.lower().replace(' ', '_') for col in df.columns]

# Exibir dados pré-processados
print(df.head())

Vamos discutir o código passo-a-passo:

`pd.read_csv('dados.csv')`: Carrega os dados de um arquivo CSV.

`df.info()`: Verifica os tipos de dados e a presença de valores nulos.

`df['salario_anual'].str.replace(',', '').astype(float)`: Remove vírgulas e converte a coluna de salário anual para o tipo float.

`df.isnull().sum()`: Identifica a quantidade de valores nulos em cada coluna.

`df['salario_anual'].fillna(df['salario_anual'].median(), inplace=True)`: Substitui valores nulos na coluna de salário anual pela mediana.

`df.columns = [col.lower().replace(' ', '_') for col in df.columns]`: Padroniza os nomes das colunas, convertendo para minúsculas e substituindo espaços por underscores.

`df.head()`: Exibe as primeiras linhas do DataFrame pré-processado.