Skip to content

IncomeView/kaggle_dataCleaning

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation


🧹 Data Cleaning com Python — Kaggle Learn

Projeto completo de limpeza, padronização e preparação de dados

Este repositório reúne todos os notebooks, scripts e documentação produzidos durante o curso Data Cleaning da plataforma Kaggle Learn.
O objetivo é demonstrar, na prática, técnicas essenciais de pré-processamento de dados usando Python, Pandas, NumPy, Seaborn, além de ferramentas auxiliares como fuzzy matching, normalização, parsing de datas e tratamento de codificações de texto.

A estrutura do projeto foi organizada para facilitar navegação e reuso, incluindo:

  • notebooks/ com cada lição do curso
  • data/raw/ com dados originais
  • scripts/ com utilitários de automação
  • docs/ com documentação complementar



📚 Conteúdo do Projeto

O projeto está organizado seguindo as cinco lições principais do curso:

1. Handling Missing Values

  • Identificação de valores ausentes
  • Cálculo de porcentagem de missing
  • Remoção de linhas e colunas com NaN
  • Preenchimento automático com forward/backward fill
  • Imputação simples

2. Scaling & Normalization

  • Aplicação de Min-Max Scaling
  • Normalização com Box-Cox
  • Comparação entre colunas escaladas e normalizadas
  • Visualização de distribuições

3. Parsing Dates

  • Conversão de strings para datetime
  • Identificação de datas corrompidas
  • Correção manual de registros inconsistentes
  • Extração de componentes de data
  • Visualização de padrões temporais

4. Character Encodings

  • Identificação de encodings incorretos
  • Conversão entre diferentes codificações (Big5 → UTF‑8, cp1252 → UTF‑8)
  • Leitura de arquivos com encoding problemático
  • Salvamento seguro em UTF‑8

5. Inconsistent Data Entry

  • Padronização de texto (lowercase, strip, normalização)
  • Correção de inconsistências com fuzzy matching
  • Agrupamento de categorias equivalentes
  • Limpeza de colunas com entradas duplicadas ou mal formatadas



🗂️ Estrutura do Repositório

📦 dataCleaning kaggle

├── README.md
├── config.py
├── requirements.txt
│
├── data/
│   └── raw/
│
├── docs/
│   └── dataCleaning_book.md
│
├── notebooks/
│   ├── 01_handlingMissingValue.ipynb
│   ├── 02_scalingAndNormalization.ipynb
│   ├── 03_parsingDates.ipynb
│   ├── 04_characterEncodings.ipynb
│   ├── 05_inconsistentDataEntry.ipynb
│   └── 05_inconsistentDataEntry.py
│
└── scripts/
    ├── validate_markdown.py
    └── write_version.py



🛠️ Tecnologias Utilizadas

  • Python 3.x
  • Pandas
  • NumPy
  • Seaborn / Matplotlib
  • SciPy
  • mlxtend
  • fuzzywuzzy
  • charset-normalizer
  • Git LFS



🚀 Como Executar o Projeto

# Clone o repositório
git clone https://github.com/IncomeView/kaggle_dataCleaning.git

# Instale as dependências
pip install -r requirements.txt

# Abra os notebooks
jupyter notebook



🎯 Objetivo do Projeto

Este repositório serve como:

  • Portfólio de habilidades em Data Cleaning
  • Referência prática para pré-processamento de dados
  • Base para projetos futuros de Machine Learning
  • Material de estudo para iniciantes em análise de dados



🧑‍💻 Autor

Moacir
Desenvolvedor e entusiasta de ciência de dados
Indaiatuba — São Paulo, Brasil



About

Projeto completo de limpeza, padronização e preparação de dados, baseado no curso Data Cleaning do Kaggle Learn.

Resources

Stars

Watchers

Forks

Packages

 
 
 

Contributors