# üîç Valida√ß√£o de Pr√©-requisitos - NASA GCN Pipeline

## Prop√≥sito
Este notebook √© a **primeira task** do job `nasa_gcn_job` e executa valida√ß√µes antes do pipeline DLT.

### Valida√ß√µes realizadas:
1. ‚úÖ **Credenciais GCN** - Verifica se `GCN_CLIENT_ID` e `GCN_CLIENT_SECRET` est√£o configurados
2. ‚úÖ **Conectividade Kafka** - Testa conex√£o com o broker NASA GCN
3. ‚úÖ **M√≥dulo nasa_gcn** - Verifica se o wheel est√° instalado corretamente

### Fluxo de Execu√ß√£o do Job
```
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ  1. VALIDA√á√ÉO   ‚îÇ‚îÄ‚îÄ‚îÄ‚ñ∂‚îÇ   2. PIPELINE   ‚îÇ‚îÄ‚îÄ‚îÄ‚ñ∂‚îÇ   3. MAIN       ‚îÇ
‚îÇ  (este notebook)‚îÇ    ‚îÇ   (DLT Bronze/  ‚îÇ    ‚îÇ   (processamento‚îÇ
‚îÇ                 ‚îÇ    ‚îÇ    Silver)      ‚îÇ    ‚îÇ    adicional)   ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

### Comportamento:
- **Sucesso**: Job continua para o pipeline DLT
- **Falha**: Job para imediatamente, economizando recursos

---

## Refer√™ncias
- [Defini√ß√£o do Job](../resources/nasa_gcn.job.yml)
- [Pipeline DLT](./pipeline.ipynb)
- [Configura√ß√£o Kafka](./nasa_gcn/config.py)

## 1Ô∏è‚É£ Configura√ß√£o Inicial

Carrega extens√µes √∫teis e importa depend√™ncias necess√°rias.

In [None]:
# ==============================================================================
# CONFIGURA√á√ÉO: Autoreload para desenvolvimento
# ==============================================================================
# Recarrega m√≥dulos automaticamente quando modificados (√∫til durante dev)
%load_ext autoreload
%autoreload 2

In [None]:
# ==============================================================================
# IMPORTS: Bibliotecas necess√°rias para valida√ß√£o
# ==============================================================================
import sys
import socket
from datetime import datetime

# Adiciona path do bundle para importar m√≥dulos locais
# (em produ√ß√£o, o wheel √© instalado e isso n√£o √© necess√°rio)
try:
    source_path = spark.conf.get("bundle.sourcePath", None)
    if source_path:
        sys.path.append(source_path)
except:
    pass  # Spark n√£o dispon√≠vel (execu√ß√£o local)

print(f"üïê Valida√ß√£o iniciada em: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print(f"üìç Python path: {sys.executable}")

---

## 2Ô∏è‚É£ Valida√ß√£o: M√≥dulo nasa_gcn

Verifica se o pacote `nasa_gcn` (wheel) est√° instalado e acess√≠vel.

In [None]:
# ==============================================================================
# VALIDA√á√ÉO 1: Importa√ß√£o do m√≥dulo nasa_gcn
# ==============================================================================

try:
    from nasa_gcn.config import (
        get_kafka_options,
        KAFKA_BOOTSTRAP_SERVERS,
        OAUTH_TOKEN_ENDPOINT,
        _get_credential
    )
    print("‚úÖ M√≥dulo nasa_gcn importado com sucesso!")
    print(f"   üì° Kafka Broker: {KAFKA_BOOTSTRAP_SERVERS}")
    print(f"   üîê OAuth Endpoint: {OAUTH_TOKEN_ENDPOINT}")
except ImportError as e:
    print(f"‚ùå ERRO: N√£o foi poss√≠vel importar nasa_gcn")
    print(f"   Detalhes: {e}")
    print("   üí° Verifique se o wheel foi instalado corretamente")
    raise  # Falha o notebook para parar o job

---

## 3Ô∏è‚É£ Valida√ß√£o: Credenciais GCN

Verifica se as credenciais OAuth do NASA GCN est√£o configuradas.

### Onde as credenciais s√£o definidas:
- **Pipeline DLT**: Via `configuration` em `nasa_gcn.pipeline.yml`
- **Local**: Via arquivo `.env` ou vari√°veis de ambiente

In [None]:
# ==============================================================================
# VALIDA√á√ÉO 2: Credenciais GCN OAuth
# ==============================================================================

def validate_credentials():
    """
    Valida a presen√ßa das credenciais NASA GCN.
    
    As credenciais s√£o obtidas de:
    1. Spark config (para pipelines DLT)
    2. Vari√°veis de ambiente (para execu√ß√£o local)
    
    Returns:
        tuple: (client_id_ok, client_secret_ok)
    """
    client_id = _get_credential("GCN_CLIENT_ID")
    client_secret = _get_credential("GCN_CLIENT_SECRET")
    
    # Verifica Client ID
    if client_id:
        # Mostra apenas os primeiros caracteres por seguran√ßa
        masked_id = client_id[:8] + "..." if len(client_id) > 8 else "***"
        print(f"‚úÖ GCN_CLIENT_ID encontrado: {masked_id}")
        id_ok = True
    else:
        print("‚ùå GCN_CLIENT_ID n√£o encontrado!")
        id_ok = False
    
    # Verifica Client Secret (nunca mostra o valor)
    if client_secret:
        print(f"‚úÖ GCN_CLIENT_SECRET encontrado: ****** ({len(client_secret)} chars)")
        secret_ok = True
    else:
        print("‚ùå GCN_CLIENT_SECRET n√£o encontrado!")
        secret_ok = False
    
    return id_ok, secret_ok

# Executa valida√ß√£o
id_ok, secret_ok = validate_credentials()

if not (id_ok and secret_ok):
    print("\nüí° Para configurar as credenciais:")
    print("   1. Obtenha em: https://gcn.nasa.gov/quickstart")
    print("   2. Deploy com: databricks bundle deploy --var gcn_client_id=XXX --var gcn_client_secret=YYY")
    print("   3. Ou localmente: adicione ao arquivo .env")
    # N√£o falha aqui - permite que o pipeline teste a conex√£o

---

## 4Ô∏è‚É£ Valida√ß√£o: Conectividade com Kafka

Testa se o broker Kafka do NASA GCN est√° acess√≠vel na porta 9092.

### Poss√≠veis problemas de conectividade:
- üî• Firewall bloqueando porta 9092
- üåê DNS n√£o resolvendo `kafka.gcn.nasa.gov`
- üîå Rede corporativa com proxy

In [None]:
# ==============================================================================
# VALIDA√á√ÉO 3: Conectividade TCP com o Kafka Broker
# ==============================================================================

def test_kafka_connectivity(host: str = "kafka.gcn.nasa.gov", port: int = 9092, timeout: int = 10):
    """
    Testa conectividade TCP com o broker Kafka.
    
    Args:
        host: Hostname do broker Kafka
        port: Porta do broker (padr√£o 9092)
        timeout: Timeout em segundos
        
    Returns:
        bool: True se conectou com sucesso
    """
    print(f"üîå Testando conex√£o com {host}:{port}...")
    
    try:
        # Resolve DNS primeiro
        ip = socket.gethostbyname(host)
        print(f"   üìç DNS resolvido: {host} ‚Üí {ip}")
        
        # Testa conex√£o TCP
        sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
        sock.settimeout(timeout)
        result = sock.connect_ex((host, port))
        sock.close()
        
        if result == 0:
            print(f"‚úÖ Conex√£o com Kafka estabelecida com sucesso!")
            return True
        else:
            print(f"‚ùå N√£o foi poss√≠vel conectar na porta {port} (c√≥digo: {result})")
            return False
            
    except socket.gaierror:
        print(f"‚ùå ERRO DNS: N√£o foi poss√≠vel resolver {host}")
        print("   üí° Verifique sua conex√£o de internet")
        return False
    except socket.timeout:
        print(f"‚ùå TIMEOUT: Conex√£o demorou mais de {timeout}s")
        print("   üí° Verifique firewall ou proxy")
        return False
    except Exception as e:
        print(f"‚ùå ERRO: {e}")
        return False

# Executa teste de conectividade
kafka_ok = test_kafka_connectivity()

---

## 5Ô∏è‚É£ Resumo da Valida√ß√£o

Consolida os resultados e decide se o pipeline pode continuar.

In [None]:
# ==============================================================================
# RESUMO: Resultado final das valida√ß√µes
# ==============================================================================

print("\n" + "="*60)
print("üìã RESUMO DA VALIDA√á√ÉO")
print("="*60)

# Lista de valida√ß√µes
validations = [
    ("M√≥dulo nasa_gcn", True),          # Se chegou aqui, passou
    ("GCN_CLIENT_ID", id_ok),
    ("GCN_CLIENT_SECRET", secret_ok),
    ("Conectividade Kafka", kafka_ok),
]

all_passed = True
critical_failed = False

for name, passed in validations:
    status = "‚úÖ" if passed else "‚ùå"
    print(f"  {status} {name}")
    if not passed:
        all_passed = False
        # Credenciais e conectividade s√£o cr√≠ticos
        if name in ["Conectividade Kafka"]:
            critical_failed = True

print("="*60)

if all_passed:
    print("\nüéâ TODAS AS VALIDA√á√ïES PASSARAM!")
    print("   O pipeline DLT pode prosseguir com seguran√ßa.")
elif critical_failed:
    print("\nüö® VALIDA√á√ÉO CR√çTICA FALHOU!")
    print("   O pipeline n√£o conseguir√° conectar ao Kafka.")
    print("   Verifique a configura√ß√£o antes de continuar.")
    # Descomente para falhar o job:
    # raise Exception("Valida√ß√£o cr√≠tica falhou - pipeline n√£o pode continuar")
else:
    print("\n‚ö†Ô∏è  ALGUMAS VALIDA√á√ïES FALHARAM")
    print("   O pipeline pode falhar ao tentar autenticar.")
    print("   Verifique as credenciais GCN.")

print(f"\nüïê Valida√ß√£o conclu√≠da em: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")