GitHub - IncomeView/kaggle_dataCleaning: Projeto completo de limpeza, padronização e preparação de dados, baseado no curso Data Cleaning do Kaggle Learn.

🧹 Data Cleaning com Python — Kaggle Learn

Projeto completo de limpeza, padronização e preparação de dados

Este repositório reúne todos os notebooks, scripts e documentação produzidos durante o curso Data Cleaning da plataforma Kaggle Learn.
O objetivo é demonstrar, na prática, técnicas essenciais de pré-processamento de dados usando Python, Pandas, NumPy, Seaborn, além de ferramentas auxiliares como fuzzy matching, normalização, parsing de datas e tratamento de codificações de texto.

A estrutura do projeto foi organizada para facilitar navegação e reuso, incluindo:

notebooks/ com cada lição do curso
data/raw/ com dados originais
scripts/ com utilitários de automação
docs/ com documentação complementar

📚 Conteúdo do Projeto

O projeto está organizado seguindo as cinco lições principais do curso:

1. Handling Missing Values

Identificação de valores ausentes
Cálculo de porcentagem de missing
Remoção de linhas e colunas com NaN
Preenchimento automático com forward/backward fill
Imputação simples

2. Scaling & Normalization

Aplicação de Min-Max Scaling
Normalização com Box-Cox
Comparação entre colunas escaladas e normalizadas
Visualização de distribuições

3. Parsing Dates

Conversão de strings para datetime
Identificação de datas corrompidas
Correção manual de registros inconsistentes
Extração de componentes de data
Visualização de padrões temporais

4. Character Encodings

Identificação de encodings incorretos
Conversão entre diferentes codificações (Big5 → UTF‑8, cp1252 → UTF‑8)
Leitura de arquivos com encoding problemático
Salvamento seguro em UTF‑8

5. Inconsistent Data Entry

Padronização de texto (lowercase, strip, normalização)
Correção de inconsistências com fuzzy matching
Agrupamento de categorias equivalentes
Limpeza de colunas com entradas duplicadas ou mal formatadas

🗂️ Estrutura do Repositório

📦 dataCleaning kaggle

├── README.md
├── config.py
├── requirements.txt
│
├── data/
│   └── raw/
│
├── docs/
│   └── dataCleaning_book.md
│
├── notebooks/
│   ├── 01_handlingMissingValue.ipynb
│   ├── 02_scalingAndNormalization.ipynb
│   ├── 03_parsingDates.ipynb
│   ├── 04_characterEncodings.ipynb
│   ├── 05_inconsistentDataEntry.ipynb
│   └── 05_inconsistentDataEntry.py
│
└── scripts/
    ├── validate_markdown.py
    └── write_version.py

🛠️ Tecnologias Utilizadas

Python 3.x
Pandas
NumPy
Seaborn / Matplotlib
SciPy
mlxtend
fuzzywuzzy
charset-normalizer
Git LFS

🚀 Como Executar o Projeto

# Clone o repositório
git clone https://github.com/IncomeView/kaggle_dataCleaning.git

# Instale as dependências
pip install -r requirements.txt

# Abra os notebooks
jupyter notebook

🎯 Objetivo do Projeto

Este repositório serve como:

Portfólio de habilidades em Data Cleaning
Referência prática para pré-processamento de dados
Base para projetos futuros de Machine Learning
Material de estudo para iniciantes em análise de dados

🧑‍💻 Autor

Moacir
Desenvolvedor e entusiasta de ciência de dados
Indaiatuba — São Paulo, Brasil

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🧹 Data Cleaning com Python — Kaggle Learn

📚 Conteúdo do Projeto

1. Handling Missing Values

2. Scaling & Normalization

3. Parsing Dates

4. Character Encodings

5. Inconsistent Data Entry

🗂️ Estrutura do Repositório

🛠️ Tecnologias Utilizadas

🚀 Como Executar o Projeto

🎯 Objetivo do Projeto

🧑‍💻 Autor

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
.github/workflows		.github/workflows
data/raw		data/raw
docs		docs
notebooks		notebooks
scripts		scripts
.gitattributes		.gitattributes
.gitignore		.gitignore
README.md		README.md
config.py		config.py
requirements.txt		requirements.txt

Folders and files

Latest commit

History

Repository files navigation

🧹 Data Cleaning com Python — Kaggle Learn

📚 Conteúdo do Projeto

1. Handling Missing Values

2. Scaling & Normalization

3. Parsing Dates

4. Character Encodings

5. Inconsistent Data Entry

🗂️ Estrutura do Repositório

🛠️ Tecnologias Utilizadas

🚀 Como Executar o Projeto

🎯 Objetivo do Projeto

🧑‍💻 Autor

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages