Projeto completo de limpeza, padronização e preparação de dados
Este repositório reúne todos os notebooks, scripts e documentação produzidos durante o curso Data Cleaning da plataforma Kaggle Learn.
O objetivo é demonstrar, na prática, técnicas essenciais de pré-processamento de dados usando Python, Pandas, NumPy, Seaborn, além de ferramentas auxiliares como fuzzy matching, normalização, parsing de datas e tratamento de codificações de texto.
A estrutura do projeto foi organizada para facilitar navegação e reuso, incluindo:
- notebooks/ com cada lição do curso
- data/raw/ com dados originais
- scripts/ com utilitários de automação
- docs/ com documentação complementar
O projeto está organizado seguindo as cinco lições principais do curso:
- Identificação de valores ausentes
- Cálculo de porcentagem de missing
- Remoção de linhas e colunas com NaN
- Preenchimento automático com forward/backward fill
- Imputação simples
- Aplicação de Min-Max Scaling
- Normalização com Box-Cox
- Comparação entre colunas escaladas e normalizadas
- Visualização de distribuições
- Conversão de strings para
datetime - Identificação de datas corrompidas
- Correção manual de registros inconsistentes
- Extração de componentes de data
- Visualização de padrões temporais
- Identificação de encodings incorretos
- Conversão entre diferentes codificações (Big5 → UTF‑8, cp1252 → UTF‑8)
- Leitura de arquivos com encoding problemático
- Salvamento seguro em UTF‑8
- Padronização de texto (lowercase, strip, normalização)
- Correção de inconsistências com fuzzy matching
- Agrupamento de categorias equivalentes
- Limpeza de colunas com entradas duplicadas ou mal formatadas
📦 dataCleaning kaggle
├── README.md
├── config.py
├── requirements.txt
│
├── data/
│ └── raw/
│
├── docs/
│ └── dataCleaning_book.md
│
├── notebooks/
│ ├── 01_handlingMissingValue.ipynb
│ ├── 02_scalingAndNormalization.ipynb
│ ├── 03_parsingDates.ipynb
│ ├── 04_characterEncodings.ipynb
│ ├── 05_inconsistentDataEntry.ipynb
│ └── 05_inconsistentDataEntry.py
│
└── scripts/
├── validate_markdown.py
└── write_version.py
- Python 3.x
- Pandas
- NumPy
- Seaborn / Matplotlib
- SciPy
- mlxtend
- fuzzywuzzy
- charset-normalizer
- Git LFS
# Clone o repositório
git clone https://github.com/IncomeView/kaggle_dataCleaning.git
# Instale as dependências
pip install -r requirements.txt
# Abra os notebooks
jupyter notebookEste repositório serve como:
- Portfólio de habilidades em Data Cleaning
- Referência prática para pré-processamento de dados
- Base para projetos futuros de Machine Learning
- Material de estudo para iniciantes em análise de dados
Moacir
Desenvolvedor e entusiasta de ciência de dados
Indaiatuba — São Paulo, Brasil