A limpeza de dados é o processo de encontrar e corrigir dados imprecisos em um conjunto de dados. Isso envolve identificar e remover inconsistências, preencher campos vazios, corrigir erros estruturais e garantir que os dados sejam precisos, completos e consistentes.

Os dados podem apresentar uma variedade de problemas, incluindo:
- Dados duplicados: quando um mesmo dado é registrado duas ou mais vezes.
- Problemas de consistência: quando os dados apresentam inconsistências entre si, como valores diferentes para o mesmo atributo.
- Problemas de completude: quando os dados estão incompletos, com valores faltantes.
- Problemas de conformidade: quando os dados não atendem aos requisitos de um determinado padrão ou formato.
- Problemas de integridade: quando os dados estão corrompidos ou danificados.
O tratamento e limpeza de dados envolvem uma série de técnicas e ferramentas, como:
- Limpeza de dados: remoção de dados duplicados, inconsistências, valores faltantes e outros problemas.
- Transformação de dados: conversão dos dados para um formato mais adequado para análise.
- Padronização de dados: definição de regras para garantir que os dados sejam consistentes.
- Enriquecimento de dados: inclusão de informações adicionais aos dados para melhorar a sua qualidade.
- Linguagem: Python
- IDE: Jupyter Notebook
- Packs: Pandas, Seaborn e Statistics
Para descrever e resumir um conjunto de dados, aplicamos técnicas de estatística descritiva, portanto aplicar estas técnicas é entender a ciência que se dedica à coleta, análise e interpretação de dados.