Este projeto demonstra, na prática, como integrar Python e SQL para manipular, transformar e analisar dados — tudo dentro de um pipeline estruturado e versionado com Git e GitHub.
O projeto foi desenvolvido como parte dos estudos na pós graduação em Engenharia de Dados e Inteligência Artificial da Faculdade Anhanguera, aplicando boas práticas de organização, versionamento e reprodutibilidade.
py-sql-github-data-project/
│
├── data/ # Dados locais (não versionados)
│ ├── dados_duckdb.db # Banco de dados DuckDB
│
├── landing/ # Dados coletados em formato bruto (CSV)
│ ├── z0019_1.csv
│ └── z0019_2.csv
│
├── scripts/ # Notebooks Jupyter para exploração e análise
│ ├── ingestao.ipynb
│ ├── refinamento.ipynb
│ └── enriquecimento.ipynb
│
├── .gitignore # Arquivos ignorados pelo Git
└── README.md # Este arquivo 🙂
-
Ingestão de Dados
- Leitura de arquivos CSV da pasta
landing/
; - Armazenamento no banco DuckDB;
- Verificações de schema e tipos de dados.
- Leitura de arquivos CSV da pasta
-
Refinamento
- Limpeza de colunas, padronização e tratamento de valores nulos;
- Conversão de tipos e normalização dos dados.
-
Enriquecimento
- Combinação de tabelas;
- Criação de novas métricas e indicadores;
- Geração de datasets analíticos.
python -m venv venv
Ativar:
- Windows
venv\Scripts\activate
- Linux
source venv/bin/activate
pip install -r requirements.txt
Você pode rodar as etapas separadamente:
python scripts/ingestao.py
python scripts/refinamento.py
python scripts/enriquecimento.py
Ou abrir os notebooks:
jupyter notebook
Principais Tecnologias:
Categoria | Ferramenta |
---|---|
Linguagem | Python 3 |
Banco de Dados | DuckDB |
Manipulação de Dados | Pandas |
Notebooks | Jupyter |
Controle de Versão | Git + GitHub |
🧾 Boas Práticas Implementadas ✅ Estrutura de diretórios padronizada ✅ Versionamento limpo com .gitignore ✅ Scripts separados por etapas do pipeline ✅ Documentação organizada e reproduzível ✅ Uso de ambiente virtual e requirements.txt
🧑💻 Autor César Augusto Fernandes
📍 Brasil
💼 Engenheiro de Dados em formação
🔗 GitHub
🪪 Licença Este projeto é de uso livre para fins educacionais e experimentais. Sinta-se à vontade para estudar, adaptar e compartilhar.