Este treinamento apresenta a integração entre Databricks e GitHub Copilot, com foco prático em como essas ferramentas podem acelerar o desenvolvimento de pipelines de dados, otimizar código e aumentar a produtividade dos times de engenharia de dados.
- Setup do SQL Warehouse serverless 2X-Small
- Integração VS Code + Databricks SQL
- Exercício ETL em SQL: extração, limpeza e camada Gold
databricks-treinner/
├── README.md # Este arquivo
├── docs/
│ ├── 01_setup_guide.md # Guia de setup do ambiente
│ ├── 02_databricks_concepts.md # Conceitos chave do Databricks
│ └── 03_copilot_tips.md # Dicas de uso do Copilot
├── notebooks/
│ └── 01_sql_warehouse_serverless/
│ ├── 01_sql_setup_and_extract.sql # Bronze SQL em warehouse serverless
│ ├── 02_sql_cleaning_etl.sql # Limpeza e ETL Silver em SQL
│ └── 03_sql_gold_validation.sql # Gold SQL e validações
├── data/
│ ├── raw/ # Dados brutos de exemplo
│ └── processed/ # Dados processados
└── scripts/
└── generate_sample_data.py # Script para gerar dados de exemplo
Como funciona: clique em "Copiar Exercício" para criar o repositório a partir do template. O primeiro
pushdo repositório criado dispara automaticamente o workflow SQL Warehouse Serverless, que cria a Issue e atualiza o README com o link do exercício. Cada commit nos notebooks avança automaticamente a Issue para a próxima etapa.
O Codespace já vem pré-configurado com:
- Java 11 + PySpark 3.5.1 + Delta Lake (via pip, sem download de binário)
- Python 3.12
- Databricks CLI
- Databricks Connect
- GitHub Copilot + Copilot Chat
- Extensão Databricks para VS Code
- Jupyter Notebook support
Antes de abrir o Codespace, configure os secrets em: github.com → Settings → Codespaces → New secret
| Secret | Valor |
|---|---|
DATABRICKS_HOST |
https://<id-databricks>.cloud.databricks.com |
DATABRICKS_TOKEN |
Token gerado em Settings → Developer → Access Tokens |
DATABRICKS_CLUSTER_ID |
ID do cluster criado no Databricks |
Execute um ETL completo usando apenas SQL Warehouse serverless 2X-Small.
Se o repositório for criado com GitHub Actions habilitado, a trilha começa automaticamente sem etapa manual.
Se preferir rodar localmente em vez do Codespaces:
- Conta gratuita no Databricks Free Edition
- VS Code instalado
- Extensão Databricks para VS Code
- GitHub Copilot (licença ativa ou trial)
- Python 3.12+ e Java 11+
- Configure os secrets
DATABRICKS_HOST,DATABRICKS_TOKENeDATABRICKS_CLUSTER_IDantes de abrir no GitHub Codespaces - Abra o repositório no GitHub Codespaces (botão acima)
- O ambiente será configurado automaticamente
- Ative a conexão com o ambiente Databricks
- As ações
make generate-data && make upload-datasão geradas automáticamente para preparar os dados - Siga o treinamento guiado pela Issue criada pelo workflow.
- Copie
.env.examplepara.enve preencha com suas credenciais - Execute
make setup && make generate-data - Importe os notebooks na ordem indicada pelos módulos
- Execute cada célula e pratique com o Copilot ativado