# üöÄ NASA GCN Data Pipeline

## Vis√£o Geral
Pipeline **Delta Live Tables (DLT)** para ingest√£o de eventos astron√¥micos da NASA Gamma-ray Coordinates Network (GCN).

### O que √© o NASA GCN?
O [GCN (Gamma-ray Coordinates Network)](https://gcn.nasa.gov/) √© um sistema de alerta em tempo real que distribui informa√ß√µes sobre:
- üåü **Gamma-ray Bursts (GRBs)** - Explos√µes de raios gama
- üåä **Ondas Gravitacionais (IGWN)** - Detec√ß√µes do LIGO/Virgo
- ‚òÑÔ∏è **Eventos de Neutrinos** - IceCube e outros detectores
- üî≠ **Transientes Astron√¥micos** - Supernovas, kilonovas, etc.

---

## Arquitetura Medallion (Bronze ‚Üí Silver ‚Üí Gold)

```
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ     BRONZE      ‚îÇ    ‚îÇ     SILVER      ‚îÇ    ‚îÇ      GOLD       ‚îÇ
‚îÇ   (Raw Data)    ‚îÇ‚îÄ‚îÄ‚îÄ‚ñ∂‚îÇ  (Parsed Data)  ‚îÇ‚îÄ‚îÄ‚îÄ‚ñ∂‚îÇ  (Aggregated)   ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
     gcn_raw           gcn_classic_text            (futuro)
                       gcn_classic_voevent
                       gcn_classic_binary
                       gcn_notices
                       gcn_circulars
                       igwn_gwalert
                       gcn_heartbeat
```

### Camadas:
| Camada | Prop√≥sito | Tabelas |
|--------|-----------|----------|
| **Bronze** | Dados brutos exatamente como chegaram do Kafka | `gcn_raw` |
| **Silver** | Dados filtrados por tipo, decodificados, com schema definido | 7 tabelas por categoria |
| **Gold** | Agrega√ß√µes, m√©tricas, dashboards (implementa√ß√£o futura) | - |

## Configura√ß√£o e Importa√ß√µes

### Depend√™ncias:
- **`dlt`**: M√≥dulo Delta Live Tables do Databricks
- **`nasa_gcn.config`**: Configura√ß√µes Kafka/OAuth (definido em `src/nasa_gcn/config.py`)

### Vari√°veis de Ambiente:
As credenciais s√£o injetadas via `spark.conf` pelo pipeline DLT, definidas em `nasa_gcn.pipeline.yml`.

In [None]:
# ==============================================================================
# IMPORTS E CONFIGURA√á√ÉO
# ==============================================================================

import dlt  # Delta Live Tables - framework declarativo para pipelines
import sys

# Adiciona o path do bundle para importar m√≥dulos locais
# bundle.sourcePath √© definido em nasa_gcn.pipeline.yml ‚Üí configuration
sys.path.append(spark.conf.get("bundle.sourcePath", "."))

# PySpark functions para transforma√ß√µes
from pyspark.sql.functions import col, decode, split, current_timestamp

# Configura√ß√µes Kafka do m√≥dulo nasa_gcn
# get_kafka_options() retorna dict com bootstrap.servers, OAuth, etc.
from nasa_gcn.config import get_kafka_options

---

## ü•â Bronze Layer: Ingest√£o Raw

### Tabela: `gcn_raw`

**Prop√≥sito**: Captura TODAS as mensagens Kafka do GCN, exatamente como chegam, sem transforma√ß√£o.

**Por que manter dados raw?**
- üìú **Auditoria**: Registro completo do que foi recebido
- üîÑ **Reprocessamento**: Se o parsing Silver falhar, temos a fonte original
- üîç **Debug**: Facilita troubleshooting de problemas de schema

**Colunas:**
| Coluna | Tipo | Descri√ß√£o |
|--------|------|------------|
| `message_key` | STRING | Chave da mensagem Kafka (pode ser nula) |
| `value` | BINARY | Conte√∫do raw da mensagem (bytes) |
| `topic` | STRING | T√≥pico Kafka de origem (ex: `gcn.classic.text.FERMI_GBM_FLT_INTERNAL`) |
| `partition` | INT | Parti√ß√£o Kafka |
| `offset` | LONG | Offset da mensagem na parti√ß√£o |
| `kafka_timestamp` | TIMESTAMP | Timestamp atribu√≠do pelo Kafka |
| `ingestion_timestamp` | TIMESTAMP | Quando o Databricks recebeu a mensagem |

In [None]:
# ==============================================================================
# BRONZE: gcn_raw - Todos os eventos GCN em formato bruto
# ==============================================================================

@dlt.table(
    name="gcn_raw",
    comment="Raw NASA GCN Kafka messages (all topics) - Bronze layer",
    table_properties={"quality": "bronze"}
)
def gcn_raw():
    """
    Ingest√£o de mensagens raw do NASA GCN Kafka.
    
    Conecta-se aos t√≥picos GCN usando OAuth e armazena todas as mensagens
    sem transforma√ß√£o. Os t√≥picos s√£o definidos em config.py via subscribePattern.
    
    Returns:
        DataFrame: Stream de mensagens Kafka com metadados
    """
    # Obt√©m configura√ß√µes Kafka (bootstrap, OAuth, t√≥picos)
    kafka_options = get_kafka_options()
    
    return (
        spark.readStream
        .format("kafka")              # Conector Kafka estruturado
        .options(**kafka_options)      # Credenciais e configura√ß√µes
        .load()
        .select(
            # Converte key de bytes para string (geralmente √© null no GCN)
            col("key").cast("string").alias("message_key"),
            col("value"),              # Mant√©m como bytes (BINARY)
            col("topic"),              # T√≥pico de origem
            col("partition"),          # Parti√ß√£o Kafka
            col("offset"),             # Offset para tracking
            col("timestamp").alias("kafka_timestamp"),
            current_timestamp().alias("ingestion_timestamp")  # Quando ingerimos
        )
    )

---

## ü•à Silver Layer: Tabelas Multiplexadas por Categoria

A camada Silver filtra e transforma os dados raw por tipo de evento.
Cada tabela l√™ do `gcn_raw` e aplica filtros e decodifica√ß√£o espec√≠ficos.

### Por que multiplex?
O GCN envia diversos tipos de mensagens em formatos diferentes:
- **Text**: Alertas em texto simples (formato legado)
- **VoEvent**: XML estruturado (padr√£o IVOA)
- **Binary**: Dados bin√°rios compactos
- **JSON**: Novo formato estruturado (gcn.notices.*)
- **Circulars**: Relat√≥rios de astr√¥nomos em formato JSON

### Tabela: `gcn_classic_text`

**T√≥picos**: `gcn.classic.text.*` (ex: FERMI_GBM, SWIFT_BAT, etc.)

**Formato**: Texto simples ASCII com campos chave=valor.

Exemplo de mensagem:
```
TITLE:          GCN/FERMI NOTICE
NOTICE_DATE:    Mon 01 Jan 24 12:34:56 UT
TRIGGER_NUM:    123456789
...
```

In [None]:
# ==============================================================================
# SILVER: gcn_classic_text - Alertas em formato texto
# ==============================================================================

@dlt.table(
    name="gcn_classic_text",
    comment="Classic text format GCN alerts (FERMI, SWIFT, etc.) - Silver layer",
    table_properties={"quality": "silver"}
)
def gcn_classic_text():
    """
    Filtra mensagens de t√≥picos gcn.classic.text.* e decodifica para UTF-8.
    
    O campo event_type √© extra√≠do do nome do t√≥pico:
    gcn.classic.text.FERMI_GBM_FLT ‚Üí event_type = "FERMI_GBM_FLT"
    """
    return (
        dlt.read_stream("gcn_raw")
        .filter(col("topic").startswith("gcn.classic.text."))
        .select(
            col("message_key"),
            # Decodifica bytes para string UTF-8
            decode(col("value"), "UTF-8").alias("message_text"),
            col("topic"),
            # Extrai tipo de evento: split por '.' e pega √≠ndice 3
            split(col("topic"), r"\.").getItem(3).alias("event_type"),
            col("kafka_timestamp"),
            col("ingestion_timestamp"),
            col("partition"),
            col("offset")
        )
    )

### Tabela: `gcn_classic_voevent`

**T√≥picos**: `gcn.classic.voevent.*`

**Formato**: XML seguindo o padr√£o [VOEvent](https://www.ivoa.net/documents/VOEvent/) da IVOA.

VOEvent √© um formato rico que inclui:
- Coordenadas celestes (RA, Dec)
- Incertezas e regi√µes de erro
- Par√¢metros cient√≠ficos do evento

In [None]:
# ==============================================================================
# SILVER: gcn_classic_voevent - Alertas em formato XML VOEvent
# ==============================================================================

@dlt.table(
    name="gcn_classic_voevent",
    comment="Classic VoEvent XML format GCN alerts - Silver layer",
    table_properties={"quality": "silver"}
)
def gcn_classic_voevent():
    """
    Filtra mensagens VoEvent (XML) e decodifica para UTF-8.
    
    O XML pode ser parseado posteriormente usando from_xml() ou
    bibliotecas Python como lxml.
    """
    return (
        dlt.read_stream("gcn_raw")
        .filter(col("topic").startswith("gcn.classic.voevent."))
        .select(
            col("message_key"),
            decode(col("value"), "UTF-8").alias("voevent_xml"),
            col("topic"),
            split(col("topic"), r"\.").getItem(3).alias("event_type"),
            col("kafka_timestamp"),
            col("ingestion_timestamp"),
            col("partition"),
            col("offset")
        )
    )

### Tabela: `gcn_classic_binary`

**T√≥picos**: `gcn.classic.binary.*`

**Formato**: Pacotes bin√°rios de 160 bytes (formato legado BACODINE/GCN).

‚ö†Ô∏è **Nota**: Dados bin√°rios s√£o mantidos como `BINARY` para posterior decodifica√ß√£o com parsers espec√≠ficos.

In [None]:
# ==============================================================================
# SILVER: gcn_classic_binary - Alertas em formato bin√°rio
# ==============================================================================

@dlt.table(
    name="gcn_classic_binary",
    comment="Classic binary format GCN alerts (160-byte packets) - Silver layer",
    table_properties={"quality": "silver"}
)
def gcn_classic_binary():
    """
    Filtra mensagens bin√°rias (mant√©m como bytes).
    
    O formato bin√°rio requer decodifica√ß√£o especial usando a especifica√ß√£o
    BACODINE. Considere usar gcn-kafka Python library para parsing.
    """
    return (
        dlt.read_stream("gcn_raw")
        .filter(col("topic").startswith("gcn.classic.binary."))
        .select(
            col("message_key"),
            col("value").alias("binary_data"),  # Mant√©m como BINARY
            col("topic"),
            split(col("topic"), r"\.").getItem(3).alias("event_type"),
            col("kafka_timestamp"),
            col("ingestion_timestamp"),
            col("partition"),
            col("offset")
        )
    )

### Tabela: `gcn_notices`

**T√≥picos**: `gcn.notices.*` (ex: `gcn.notices.swift.bat.guano`)

**Formato**: JSON estruturado - o formato mais moderno e f√°cil de trabalhar.

Schema unificado documentado em: https://gcn.nasa.gov/docs/notices/schema

In [None]:
# ==============================================================================
# SILVER: gcn_notices - Alertas no novo formato JSON
# ==============================================================================

@dlt.table(
    name="gcn_notices",
    comment="New JSON format GCN notices (unified schema) - Silver layer",
    table_properties={"quality": "silver"}
)
def gcn_notices():
    """
    Filtra notices JSON (formato novo) e decodifica para UTF-8.
    
    Este √© o formato recomendado para novos consumidores.
    O JSON pode ser parseado com from_json() usando o schema unificado GCN.
    
    Estrutura do t√≥pico: gcn.notices.{mission}.{type}
    Exemplo: gcn.notices.swift.bat.guano ‚Üí mission = "swift"
    """
    return (
        dlt.read_stream("gcn_raw")
        .filter(col("topic").startswith("gcn.notices."))
        .select(
            col("message_key"),
            decode(col("value"), "UTF-8").alias("notice_json"),
            col("topic"),
            # Extrai miss√£o: gcn.notices.{mission}.* ‚Üí √≠ndice 2
            split(col("topic"), r"\.").getItem(2).alias("mission"),
            col("kafka_timestamp"),
            col("ingestion_timestamp"),
            col("partition"),
            col("offset")
        )
    )

### Tabela: `gcn_circulars`

**T√≥pico**: `gcn.circulars`

**O que s√£o Circulars?**

GCN Circulars s√£o relat√≥rios breves escritos por astr√¥nomos sobre:
- Descobertas de novos transientes
- Observa√ß√µes de follow-up
- Interpreta√ß√µes cient√≠ficas

S√£o como "tweets cient√≠ficos" da comunidade astron√¥mica!

In [None]:
# ==============================================================================
# SILVER: gcn_circulars - Relat√≥rios de astr√¥nomos
# ==============================================================================

@dlt.table(
    name="gcn_circulars",
    comment="GCN Circulars - astronomer reports and observations - Silver layer",
    table_properties={"quality": "silver"}
)
def gcn_circulars():
    """
    Filtra GCN Circulars (relat√≥rios de astr√¥nomos).
    
    Circulars cont√™m metadados (subject, submitter, date) e o texto
    do relat√≥rio em formato livre.
    
    Exemplo de uso: an√°lise de sentimento, extra√ß√£o de coordenadas,
    correla√ß√£o com eventos GCN Notices.
    """
    return (
        dlt.read_stream("gcn_raw")
        .filter(col("topic") == "gcn.circulars")
        .select(
            col("message_key"),
            decode(col("value"), "UTF-8").alias("circular_json"),
            col("topic"),
            col("kafka_timestamp"),
            col("ingestion_timestamp"),
            col("partition"),
            col("offset")
        )
    )

### Tabela: `igwn_gwalert`

**T√≥pico**: `igwn.gwalert`

**üåä Ondas Gravitacionais!**

Alertas do IGWN (International Gravitational-Wave Observatory Network):
- LIGO (EUA)
- Virgo (Europa)
- KAGRA (Jap√£o)

Estes s√£o eventos raros e cientificamente significativos!

In [None]:
# ==============================================================================
# SILVER: igwn_gwalert - Alertas de Ondas Gravitacionais
# ==============================================================================

@dlt.table(
    name="igwn_gwalert",
    comment="IGWN Gravitational Wave Alerts (LIGO/Virgo/KAGRA) - Silver layer",
    table_properties={"quality": "silver"}
)
def igwn_gwalert():
    """
    Filtra alertas de ondas gravitacionais do IGWN.
    
    Eventos incluem:
    - Preliminary: Detec√ß√£o inicial, alta incerteza
    - Initial: An√°lise r√°pida confirmada
    - Update: Refinamentos de par√¢metros
    - Retraction: Evento descartado como ru√≠do
    
    Priorize eventos com classification "BNS" (Binary Neutron Star)
    ou "NSBH" (Neutron Star-Black Hole) para multi-messenger astronomy!
    """
    return (
        dlt.read_stream("gcn_raw")
        .filter(col("topic") == "igwn.gwalert")
        .select(
            col("message_key"),
            decode(col("value"), "UTF-8").alias("gwalert_json"),
            col("topic"),
            col("kafka_timestamp"),
            col("ingestion_timestamp"),
            col("partition"),
            col("offset")
        )
    )

### Tabela: `gcn_heartbeat`

**T√≥pico**: `gcn.heartbeat`

**üíì Pulso de Vida do Sistema**

Mensagens de heartbeat s√£o enviadas periodicamente para:
- üîç Verificar conectividade com o broker Kafka
- üìä Monitorar lat√™ncia do pipeline
- üö® Detectar quedas de conex√£o

In [None]:
# ==============================================================================
# SILVER: gcn_heartbeat - Mensagens de monitoramento
# ==============================================================================

@dlt.table(
    name="gcn_heartbeat",
    comment="GCN Heartbeat/test messages for monitoring - Silver layer",
    table_properties={"quality": "silver"}
)
def gcn_heartbeat():
    """
    Filtra mensagens de heartbeat (pulso do sistema).
    
    √ötil para:
    - Criar alertas quando heartbeats param de chegar
    - Medir lat√™ncia end-to-end (timestamp GCN vs ingestion_timestamp)
    - Validar que o pipeline est√° funcionando sem eventos reais
    
    Frequ√™ncia esperada: ~1 mensagem a cada poucos segundos
    """
    return (
        dlt.read_stream("gcn_raw")
        .filter(col("topic") == "gcn.heartbeat")
        .select(
            col("message_key"),
            decode(col("value"), "UTF-8").alias("heartbeat_json"),
            col("topic"),
            col("kafka_timestamp"),
            col("ingestion_timestamp"),
            col("partition"),
            col("offset")
        )
    )