In [None]:
# =====================================================
# Databricks Asset Bundle - Serverless (com notebooks)
# =====================================================
# Este arquivo define um bundle Databricks que orquestra dois notebooks
# em um pipeline de processamento de dados

# BUNDLE: Configurações gerais do pacote
bundle:
  name: databricks  # Nome do bundle - usado como identificador único

# WORKSPACE: Define onde e como conectar ao Databricks
workspace:
  host: https://dbc-2288932a-12a3.cloud.databricks.com  # URL do workspace Databricks
  # Caminho raiz onde os arquivos serão implantados
  # ${bundle.name} = "databricks" / ${bundle.target} = "dev"
  root_path: /Workspace/Users/zhang489yuan@gmail.com/bundles/${bundle.name}/${bundle.target}

# ARTIFACTS: Define os arquivos que serão enviados para o Databricks
artifacts:
  # Primeiro notebook - processamento principal
  main_notebook:
    type: notebook           # Tipo: notebook Databricks
    # Onde será salvo: /Workspace/Users/.../bundles/databricks/dev/main
    #path: ${workspace.root_path}/main
    path: /Workspace/Users/zhang489yuan@gmail.com/bundles/databricks/dev/main/
    files:
      - source: src/main.py  # Arquivo local Python que será convertido em notebook
  
  # Segundo notebook - processamento avançado  
  process_notebook:
    type: notebook           # Tipo: notebook Databricks
    # Onde será salvo: /Workspace/Users/.../bundles/databricks/dev/process
    #path: ${workspace.root_path}/process
    path: /Workspace/Users/zhang489yuan@gmail.com/bundles/databricks/dev/process/
    files:
      - source: src/process.py  # Arquivo local Python que será convertido em notebook

# TARGETS: Define diferentes ambientes (dev, prod, etc.)
targets:
  dev:                      # Nome do ambiente de desenvolvimento
    mode: development       # Modo de desenvolvimento (habilita certas funcionalidades)

    # RESOURCES: Define recursos Databricks (jobs, clusters, pipelines, etc.)
    resources:
      # JOBS: Seção para definir trabalhos/pipelines
      jobs:
        job_orquestrado:    # Nome interno do job
          # Nome que aparece na interface do Databricks
          # Resultado: "Job Pipeline Orquestrado - databricks (dev)"
          name: Job Pipeline Orquestrado - ${bundle.name} (${bundle.target})

          # EMAIL NOTIFICATIONS: Configuração de notificações
          email_notifications:
            on_success:     # Emails enviados quando job termina com sucesso
              - zhang489yuan@gmail.com
            on_failure:     # Emails enviados quando job falha
              - data-team@suaempresa.com

          # TASKS: Lista de tarefas que compõem o job
          # files/src/ Deve ser acrescentado
          tasks:
            # PRIMEIRA TAREFA: Executa o notebook main
            - task_key: tarefa_main        # Identificador único da tarefa
              notebook_task:               # Tipo de tarefa: execução de notebook
                # Caminho do notebook no workspace
                notebook_path: ${workspace.root_path}/files/src/main
              
            # SEGUNDA TAREFA: Executa o notebook process (após main terminar)
            - task_key: tarefa_process     # Identificador único da tarefa
              depends_on:                  # Define dependências
                - task_key: tarefa_main    # Esta tarefa só roda após tarefa_main
              notebook_task:               # Tipo de tarefa: execução de notebook
                # Caminho do notebook no workspace
                notebook_path: ${workspace.root_path}/files/src/process

# EXPLICAÇÃO DOS SÍMBOLOS ${}:
# ${bundle.name}          → substitui por "databricks"
# ${bundle.target}        → substitui por "dev" 
# ${workspace.root_path}  → substitui por "/Workspace/Users/zhang489yuan@gmail.com/bundles/databricks/dev"
#
# EXEMPLO DE SUBSTITUIÇÃO:
# path: ${workspace.root_path}/main
# vira: /Workspace/Users/zhang489yuan@gmail.com/bundles/databricks/dev/main
#
# FLUXO DE EXECUÇÃO:
# 1. tarefa_main é executada primeiro (notebook main.py)
# 2. Se tarefa_main terminar com sucesso, tarefa_process é executada (notebook process.py)
# 3. Emails de notificação são enviados conforme resultado

In [None]:
# =====================================================
# Databricks Asset Bundle - Serverless (com notebooks)
# =====================================================
# Este arquivo define um bundle Databricks que orquestra dois notebooks
# em um pipeline de processamento de dados

# BUNDLE: Configurações gerais do pacote
bundle:
  name: databricks  # Nome do bundle - usado como identificador único

# WORKSPACE: Define onde e como conectar ao Databricks
workspace:
  host: https://dbc-2288932a-12a3.cloud.databricks.com  # URL do workspace Databricks
  # Caminho raiz onde os arquivos serão implantados
  # ${bundle.name} = "databricks" / ${bundle.target} = "dev"
  root_path: /Workspace/Users/zhang489yuan@gmail.com/${bundle.name}/${bundle.target}

# ARTIFACTS: Define os arquivos que serão enviados para o Databricks
artifacts:
  # Primeiro notebook - processamento principal
  reading_duck_notebook:
    type: notebook           # Tipo: notebook Databricks
    # Onde será salvo: /Workspace/Users/.../bundles/databricks/dev/main
    #path: ${workspace.root_path}/main
    path: /Workspace/Users/zhang489yuan@gmail.com/${bundle.name}/${bundle.target}/
    files:
      - source: src/reading_duck.py  # Arquivo local Python que será convertido em notebook
  
  # Segundo notebook - processamento avançado  
  process_notebook:
    type: notebook           # Tipo: notebook Databricks
    # Onde será salvo: /Workspace/Users/.../bundles/databricks/dev/process
    #path: ${workspace.root_path}/process
    path: /Workspace/Users/zhang489yuan@gmail.com/${bundle.name}/${bundle.target}/
    files:
      - source: src/process.py  # Arquivo local Python que será convertido em notebook

  # Terceiro notebook - processamento avançado  
  analysis_notebook:
    type: notebook           # Tipo: notebook Databricks
    # Onde será salvo: /Workspace/Users/.../bundles/databricks/dev/process
    #path: ${workspace.root_path}/process
    path: /Workspace/Users/zhang489yuan@gmail.com/${bundle.name}/${bundle.target}/
    files:
      - source: src/analysis.py  # Arquivo local Python que será convertido em notebook



# TARGETS: Define diferentes ambientes (dev, prod, etc.)
targets:
  # databricks bundle deploy -t dev 
  dev:                      # Nome do ambiente de desenvolvimento
    mode: development       # Modo de desenvolvimento (habilita certas funcionalidades)

    # RESOURCES: Define recursos Databricks (jobs, clusters, pipelines, etc.)
    resources:
      # JOBS: Seção para definir trabalhos/pipelines
      jobs:
        job_orquestrado:    # Nome interno do job
          # Nome que aparece na interface do Databricks
          # Resultado: "Job Pipeline Orquestrado - databricks (dev)"
          name: Job Pipeline Orquestrado - ${bundle.name} (${bundle.target})

          # EMAIL NOTIFICATIONS: Configuração de notificações
          email_notifications:
            on_success:     # Emails enviados quando job termina com sucesso
              - zhang.yuan@senaicni.com.br
            on_failure:     # Emails enviados quando job falha
              - data-team@suaempresa.com

          # TASKS: Lista de tarefas que compõem o job
          # files/src/ Deve ser acrescentado
          tasks:
            # PRIMEIRA TAREFA: Executa o notebook main
            #- task_key: tarefa_main
            #  python_task:
            #   source: ${workspace.root_path}/files/src/reading_duck.py
            - task_key: tarefa_main        # Identificador único da tarefa
              notebook_task:               # Tipo de tarefa: execução de notebook
                # Caminho do notebook no workspace
                notebook_path: ${workspace.root_path}/src/reading_duck

              # em serverless tasks você não pode declarar libraries: dentro de cada task.
              #libraries:
              #  - pypi:
              #      package: requests              


            # SEGUNDA TAREFA: Executa o notebook process (após main terminar)
            - task_key: tarefa_process     # Identificador único da tarefa
              depends_on:                  # Define dependências
                - task_key: tarefa_main    # Esta tarefa só roda após tarefa_main
              notebook_task:               # Tipo de tarefa: execução de notebook
                # Caminho do notebook no workspace
                notebook_path: ${workspace.root_path}/src/process


            # TAREFA 3 (depende da 1, mas não da 2)
            - task_key: tarefa_analysis
              depends_on:
                - task_key: tarefa_main
              notebook_task:
                notebook_path: ${workspace.root_path}/src/analysis



# EXPLICAÇÃO DOS SÍMBOLOS ${}:
# ${bundle.name}          → substitui por "databricks"
# ${bundle.target}        → substitui por "dev" 
# ${workspace.root_path}  → substitui por "/Workspace/Users/zhang489yuan@gmail.com/bundles/databricks/dev"
#
# EXEMPLO DE SUBSTITUIÇÃO:
# path: ${workspace.root_path}/main
# vira: /Workspace/Users/zhang489yuan@gmail.com/bundles/databricks/dev/main
#
# FLUXO DE EXECUÇÃO:
# 1. tarefa_main é executada primeiro (notebook main.py)
# 2. Se tarefa_main terminar com sucesso, tarefa_process é executada (notebook process.py)
# 3. Emails de notificação são enviados conforme resultado

In [5]:
import pandas as pd
import duckdb

motherduck_token = "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJlbWFpbCI6InpoYW5nNDg5eXVhbkBnbWFpbC5jb20iLCJzZXNzaW9uIjoiemhhbmc0ODl5dWFuLmdtYWlsLmNvbSIsInBhdCI6IktkU2Z0TzVsZmdoVmdBTWJNbDZKNHM0QXZjeXNISWFCUGxmODhFMHJseGciLCJ1c2VySWQiOiJmZWIwZWM2Ni1jMGEwLTQ2NTgtYTgxMS01OTVlMTYyOTM0YWQiLCJpc3MiOiJtZF9wYXQiLCJyZWFkT25seSI6ZmFsc2UsInRva2VuVHlwZSI6InJlYWRfd3JpdGUiLCJpYXQiOjE3NDQwNTk5NTl9.n_CImtcF2YtJFQ8x2GUWSACVSj8-eXS4NtHwKaVXT4E"
con = duckdb.connect(f"md:?token={motherduck_token}")

df = con.execute("select * from sample_data.hn.hacker_news limit 10").df()
df

Unnamed: 0,title,url,text,dead,by,score,time,timestamp,type,id,parent,descendants,ranking,deleted
0,,,"&gt; In a word, gardening. It&#x27;s very fulf...",,yrgulation,,1661193469,2022-08-22 18:37:49,comment,32555398,32554083,,,
1,,,I actually don&#x27;t know what you mean by th...,,paulmd,,1661193466,2022-08-22 18:37:46,comment,32555396,32554175,,,
2,,,"59% of Americans are correct, but damn! Have t...",,taylodl,,1661193469,2022-08-22 18:37:49,comment,32555397,32551475,,,
3,,,"Wrong or not, the point is that many websites ...",,0x457,,1661193453,2022-08-22 18:37:33,comment,32555394,32526577,,,
4,,,Some problems with that:<p>* The US had a sing...,,nopehnnope,,1661193457,2022-08-22 18:37:37,comment,32555395,32555289,,,
5,,,I dunno. I can imagine any of those points bei...,,jahewson,,1661193447,2022-08-22 18:37:27,comment,32555392,32555208,,,
6,,,It took billions of years to get to that point...,,idlehand,,1660592208,2022-08-15 19:36:48,comment,32474279,32473121,,,
7,,,So we know there is racial discrimination agai...,,NeverFade,,1665327441,2022-10-09 14:57:21,comment,33141778,33141730,,,
8,,,Tegmark and Musk are both dumb people posing a...,,Comevius,,1665327441,2022-10-09 14:57:21,comment,33141779,33141378,,,
9,,,"<a href=""https:&#x2F;&#x2F;twitter.com&#x2F;el...",,dragontamer,,1650913215,2022-04-25 19:00:15,comment,31159189,31158230,,,
