🐍 Py-SQL GitHub Data Project

Este projeto demonstra, na prática, como integrar Python e SQL para manipular, transformar e analisar dados — tudo dentro de um pipeline estruturado e versionado com Git e GitHub.

O projeto foi desenvolvido como parte dos estudos na pós graduação em Engenharia de Dados e Inteligência Artificial da Faculdade Anhanguera, aplicando boas práticas de organização, versionamento e reprodutibilidade.

📂 Estrutura do Projeto

py-sql-github-data-project/
│
├── data/ # Dados locais (não versionados)
│ ├── dados_duckdb.db # Banco de dados DuckDB
│
├── landing/ # Dados coletados em formato bruto (CSV)
│ ├── z0019_1.csv
│ └── z0019_2.csv
│
├── scripts/ # Notebooks Jupyter para exploração e análise
│ ├── ingestao.ipynb
│ ├── refinamento.ipynb
│ └── enriquecimento.ipynb
│
├── .gitignore # Arquivos ignorados pelo Git
└── README.md # Este arquivo 🙂

🚀 Etapas do Pipeline

Ingestão de Dados
- Leitura de arquivos CSV da pasta landing/;
- Armazenamento no banco DuckDB;
- Verificações de schema e tipos de dados.
Refinamento
- Limpeza de colunas, padronização e tratamento de valores nulos;
- Conversão de tipos e normalização dos dados.
Enriquecimento
- Combinação de tabelas;
- Criação de novas métricas e indicadores;
- Geração de datasets analíticos.

⚙️ Como Executar Localmente

1 - Criar ambiente virtual

python -m venv venv

Ativar:

Windows

venv\Scripts\activate

Linux

source venv/bin/activate

2 - Instalar dependências:

pip install -r requirements.txt

3 - Executar os scripts

Você pode rodar as etapas separadamente:

python scripts/ingestao.py
python scripts/refinamento.py
python scripts/enriquecimento.py

Ou abrir os notebooks:

jupyter notebook

Principais Tecnologias:

Categoria	Ferramenta
Linguagem	Python 3
Banco de Dados	DuckDB
Manipulação de Dados	Pandas
Notebooks	Jupyter
Controle de Versão	Git + GitHub

🧾 Boas Práticas Implementadas ✅ Estrutura de diretórios padronizada ✅ Versionamento limpo com .gitignore ✅ Scripts separados por etapas do pipeline ✅ Documentação organizada e reproduzível ✅ Uso de ambiente virtual e requirements.txt

🧑‍💻 Autor César Augusto Fernandes

📍 Brasil

💼 Engenheiro de Dados em formação

🔗 GitHub

🪪 Licença Este projeto é de uso livre para fins educacionais e experimentais. Sinta-se à vontade para estudar, adaptar e compartilhar.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

🐍 Py-SQL GitHub Data Project

📂 Estrutura do Projeto

🚀 Etapas do Pipeline

⚙️ Como Executar Localmente

1 - Criar ambiente virtual

2 - Instalar dependências:

3 - Executar os scripts

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
landing		landing
scripts		scripts
.gitignore		.gitignore
README.md		README.md

cesaraugf/py-sql-github-data-project

Folders and files

Latest commit

History

Repository files navigation

🐍 Py-SQL GitHub Data Project

📂 Estrutura do Projeto

🚀 Etapas do Pipeline

⚙️ Como Executar Localmente

1 - Criar ambiente virtual

2 - Instalar dependências:

3 - Executar os scripts

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages