# 📦 Apresentação: Uso de Databricks Asset Bundles com MLflow e Unity Catalog

---

### 📌 1. Introdução (5 min)

- O que é um **Databricks Asset Bundle**  
- Como ele representa um projeto **"Infrastructure as Code (IaC)"** completo  
- Benefícios:
  - ✅ Versionamento completo (código + infra)
  - ✅ Integração com Git e CI/CD
  - ✅ Colaboração segura entre squads
  - ✅ Portabilidade entre ambientes e workspaces

---

### 📂 2. Estrutura de Projeto

Mostre a árvore de arquivos:



💡 Destacamos que:
- Tudo está versionado com Git
- Reproduzível via Databricks CLI

---

### 📦 3. Demonstração da Pipeline

Execute os comandos localmente:

```bash
databricks bundle deploy
databricks bundle run iris_pipeline

O que acontece:

    Catálogo, schema e volume criados (setup_catalog_volume.py)

    Dataset iris.csv lido de um mock (dbfs:/tmp/... ou Volumes/...)

    Tabelas Bronze → Silver → Gold criadas no Unity Catalog

    Modelo treinado e registrado com mlflow.register_model(...)

    Rastreabilidade completa via lineage na UI do Databricks

🤖 4. Registro do modelo com MLflow

Sim, altamente recomendável! Mostre esse trecho:

mlflow.log_metric("accuracy", acc)
mlflow.sklearn.log_model(model, "iris_model")
mlflow.register_model("runs:/<run_id>/iris_model", "telecom_lakehouse.ml.iris_model")

✅ Demonstra:

    Rastreabilidade do experimento

    Versionamento automático do modelo

    Promoção para Staging e Production

🔁 5. CI/CD com GitHub Actions

Mostre seu .github/workflows/ci.yml com:

    ✅ Lint + Testes

    ✅ Coverage publicado (coverage.xml)

    ✅ databricks bundle validate

    ✅ databricks bundle deploy

    ✅ databricks bundle run iris_pipeline

💡 Destaques:

    📦 Integração entre código, dados e deploy

    🔄 Reprodutibilidade e rastreabilidade

    🧪 Validação automática dos pipelines com dados mockados

📈 6. Unity Catalog e Lineage (na UI)

Navegue na interface Databricks:

    Vá para telecom_lakehouse.gold.iris_aggregated

    Clique em Lineage → veja os notebooks, tabelas de origem e modelo

    Vá ao Model Registry → clique no modelo iris_model

        Mostre as versões

        Artefatos

        Status: None, Staging, Production

✅ Valor percebido para MLOps
Valor MLOps	Evidenciado com...
Reprodutibilidade	databricks.yml, bundle run
Versionamento de dados	setup_catalog_volume.py, Delta Tables
Governança	Unity Catalog (catalog.schema.table)
Deploy seguro	bundle deploy, Model Registry
CI/CD Automatizado	GitHub Actions + Databricks CLI
Engenharia de qualidade	Modularização, tests/, coverage
🧪 Dica bônus: prepare um commit com erro

Exemplo: remova "output_model" da configuração YAML.

Resultado: databricks bundle validate falha no pipeline
→ Mostre como isso previne erro em produção
✅ Conclusão

Sim, você pode usar o Iris Dataset — mas o foco é:

    Mostrar o ciclo completo, governado e automatizado

    Eliminar riscos manuais com infra versionada

    Trazer confiabilidade para Data Science em produção

    Demonstrar o valor real do Asset Bundle + Unity Catalog + MLflow