Skip to content

dev-pods/copilot_and_databricks

Repository files navigation

Treinamento: Databricks + GitHub Copilot no Dia a Dia

Visão Geral

Este treinamento apresenta a integração entre Databricks e GitHub Copilot, com foco prático em como essas ferramentas podem acelerar o desenvolvimento de pipelines de dados, otimizar código e aumentar a produtividade dos times de engenharia de dados.


Agenda

SQL Warehouse Serverless (40 min)

  • Setup do SQL Warehouse serverless 2X-Small
  • Integração VS Code + Databricks SQL
  • Exercício ETL em SQL: extração, limpeza e camada Gold

Estrutura do Repositório

databricks-treinner/
├── README.md                          # Este arquivo
├── docs/
│   ├── 01_setup_guide.md              # Guia de setup do ambiente
│   ├── 02_databricks_concepts.md      # Conceitos chave do Databricks
│   └── 03_copilot_tips.md             # Dicas de uso do Copilot
├── notebooks/
│   └── 01_sql_warehouse_serverless/
│       ├── 01_sql_setup_and_extract.sql # Bronze SQL em warehouse serverless
│       ├── 02_sql_cleaning_etl.sql      # Limpeza e ETL Silver em SQL
│       └── 03_sql_gold_validation.sql   # Gold SQL e validações
├── data/
│   ├── raw/                           # Dados brutos de exemplo
│   └── processed/                     # Dados processados
└── scripts/
    └── generate_sample_data.py        # Script para gerar dados de exemplo

Comece Agora

Como funciona: clique em "Copiar Exercício" para criar o repositório a partir do template. O primeiro push do repositório criado dispara automaticamente o workflow SQL Warehouse Serverless, que cria a Issue e atualiza o README com o link do exercício. Cada commit nos notebooks avança automaticamente a Issue para a próxima etapa.


O Codespace já vem pré-configurado com:

  • Java 11 + PySpark 3.5.1 + Delta Lake (via pip, sem download de binário)
  • Python 3.12
  • Databricks CLI
  • Databricks Connect
  • GitHub Copilot + Copilot Chat
  • Extensão Databricks para VS Code
  • Jupyter Notebook support

Configurar Credenciais no Codespaces

Antes de abrir o Codespace, configure os secrets em: github.com → Settings → Codespaces → New secret

Secret Valor
DATABRICKS_HOST https://<id-databricks>.cloud.databricks.com
DATABRICKS_TOKEN Token gerado em Settings → Developer → Access Tokens
DATABRICKS_CLUSTER_ID ID do cluster criado no Databricks

SQL Warehouse Serverless (Conta Free)

Execute um ETL completo usando apenas SQL Warehouse serverless 2X-Small.

Se o repositório for criado com GitHub Actions habilitado, a trilha começa automaticamente sem etapa manual.


Pré-requisitos (Instalação Local)

Se preferir rodar localmente em vez do Codespaces:


Como Usar Este Repositório

Via Codespaces (Recomendado)

  1. Configure os secrets DATABRICKS_HOST, DATABRICKS_TOKEN e DATABRICKS_CLUSTER_ID antes de abrir no GitHub Codespaces
  2. Abra o repositório no GitHub Codespaces (botão acima)
  3. O ambiente será configurado automaticamente
  4. Ative a conexão com o ambiente Databricks
  5. As ações make generate-data && make upload-data são geradas automáticamente para preparar os dados
  6. Siga o treinamento guiado pela Issue criada pelo workflow.

Via Instalação Local

  1. Copie .env.example para .env e preencha com suas credenciais
  2. Execute make setup && make generate-data
  3. Importe os notebooks na ordem indicada pelos módulos
  4. Execute cada célula e pratique com o Copilot ativado

Links Úteis

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors