Antes de começar qualquer análise de dados, é essencial garantir que seus dados estejam limpos e prontos para serem processados. Esta receita fornecerá uma abordagem passo a passo para lidar com valores ausentes, duplicatas e inconsistências em seus dados.

#### Passo 1: Identificar Valores Ausentes

In [None]:
import pandas as pd

# Carregue o conjunto de dados
dados = pd.read_csv('seu_dataset.csv')

# Verifique valores ausentes por coluna
valores_ausentes = dados.isnull().sum()
print(valores_ausentes)

Decida como lidar com os valores ausentes. Você pode escolher entre remover as linhas ou colunas afetadas, preencher os valores ausentes com médias, medianas ou valores específicos, ou até mesmo imputar com base em métodos mais avançados, como modelos de aprendizado de máquina.

#### Passo 2: Tratar Valores Ausentes

Se você optar por preencher valores ausentes, use métodos como fillna() do pandas. Por exemplo, para preencher com a média da coluna:

In [None]:
# Preencha valores ausentes com a média da coluna
dados['sua_coluna'].fillna(dados['sua_coluna'].mean(), inplace=True)

#### Passo 3: Identificar e Remover Duplicatas

Identifique duplicatas no conjunto de dados usando .duplicated(). Você pode verificar duplicatas em todo o DataFrame ou em colunas específicas.

In [None]:
# Verifique duplicatas no DataFrame inteiro
duplicatas = dados[dados.duplicated()]

# Ou verifique duplicatas em colunas específicas
duplicatas = dados[dados.duplicated(subset=['coluna1', 'coluna2'])]

Remova as duplicatas usando .drop_duplicates().

In [None]:
# Remova as duplicatas do DataFrame
dados_sem_duplicatas = dados.drop_duplicates()

#### Passo 4: Lidar com Inconsistências

Identifique possíveis inconsistências nos seus dados. Isso pode incluir valores que não fazem sentido no contexto do seu problema.

Para corrigir inconsistências, você pode aplicar transformações específicas ou remover as linhas com dados inconsistentes, dependendo da natureza do problema.

#### Passo 5: Salvar os Dados Limpos

Finalmente, depois de concluir o processo de limpeza, salve seus dados limpos em um novo arquivo para uso posterior.

In [None]:
# Salve os dados limpos em um novo arquivo CSV
dados_sem_duplicatas.to_csv('dados_limpos.csv', index=False)

Agora, você tem um conjunto de dados mais limpo e pronto para análise. Lembre-se de que a limpeza de dados é uma etapa crítica em qualquer projeto de análise de dados, pois dados sujos podem levar a conclusões errôneas.