✅ Bloco 1 – Bibliotecas e Configuração de Logging

#### 📚 BIBLIOTECAS E CONFIGURAÇÕES GERAIS
#### Projeto: Dataflow Sentinel – Observabilidade do Pipeline
#### Bloco 5A: Rastreamento e Health-checks técnicos

In [None]:
#### 📚 BIBLIOTECAS E CONFIGURAÇÕES GERAIS
#### Projeto: Dataflow Sentinel – Observabilidade do Pipeline
#### Bloco 5A: Rastreamento e Health-checks técnicos


import pandas as pd
import numpy as np
import os
import time
from datetime import datetime
import logging

# Configuração de logging padronizada
logging.basicConfig(
    level=logging.INFO,
    format="%(asctime)s | %(levelname)s | %(message)s",
    datefmt="%H:%M:%S"
)
logger = logging.getLogger("DataflowObservability")


✅ Bloco 2 – Carregamento com Medição de Tempo

#### 📁 LEITURA DO DATASET TRANSFORMADO (.parquet)

In [None]:
# =============================================================
# 📁 LEITURA DO DATASET TRANSFORMADO (.parquet)
# =============================================================

logger.info("📥 Iniciando leitura do dataset transformado...")

start_time = time.time()
file_path = "/content/dataflow_transformado.parquet"

if os.path.exists(file_path):
    df = pd.read_parquet(file_path)
    logger.info(f"✅ Arquivo carregado com sucesso: {file_path}")
    logger.info(f"📊 Dimensões do dataset: {df.shape}")
else:
    logger.error(f"❌ Arquivo não encontrado em: {file_path}")
    df = pd.DataFrame()  # fallback vazio

elapsed_time = round(time.time() - start_time, 2)
logger.info(f"⏱️ Tempo de carregamento: {elapsed_time} segundos")


✅ Bloco 3 – Health-check Técnico e Qualidade dos Dados

#### 🔍 VALIDAÇÃO TÉCNICA E INTEGRIDADE DO DATASET

In [None]:
# =============================================================
# 🔍 VALIDAÇÃO TÉCNICA E INTEGRIDADE DO DATASET
# =============================================================

if not df.empty:
    logger.info("🧪 Executando validações técnicas...")
    print("🧪 Iniciando checagens técnicas do dataset...")

    # 1. Colunas obrigatórias
    colunas_esperadas = {
        'shipment_id', 'route_id', 'date', 'delay_minutes',
        'cost_usd', 'temp_c', 'status', 'atraso_critico'
    }

    colunas_atuais = set(df.columns)
    colunas_faltando = colunas_esperadas - colunas_atuais

    if colunas_faltando:
        logger.warning(f"⚠️ Colunas ausentes: {colunas_faltando}")
        print(f"⚠️ Colunas ausentes: {colunas_faltando}")
    else:
        logger.info("✅ Todas as colunas obrigatórias estão presentes.")
        print("✅ Todas as colunas obrigatórias estão presentes.")

    # 2. Linhas mínimas esperadas
    if df.shape[0] < 5000:
        logger.warning(f"⚠️ Dataset com poucas linhas: {df.shape[0]}")
        print(f"⚠️ Dataset com poucas linhas: {df.shape[0]}")
    else:
        logger.info("✅ Quantidade de registros adequada.")
        print(f"✅ Registros suficientes: {df.shape[0]} linhas")

    # 3. Proporção de nulos máxima aceitável
    null_ratio = df.isnull().mean().max()
    limite_nulos = 0.05

    if null_ratio > limite_nulos:
        logger.warning(f"⚠️ Proporção de nulos elevada: {null_ratio:.2%}")
        print(f"⚠️ Proporção de nulos elevada: {null_ratio:.2%}")
    else:
        logger.info("✅ Nulos dentro do limite.")
        print(f"✅ Nulos dentro do limite: {null_ratio:.2%}")
else:
    logger.error("❌ Validações não executadas: dataframe está vazio.")
    print("❌ Validações não executadas: dataframe está vazio.")



🧪 Iniciando checagens técnicas do dataset...
✅ Todas as colunas obrigatórias estão presentes.
✅ Registros suficientes: 10000 linhas
✅ Nulos dentro do limite: 0.00%


✅ Bloco 4 – Tempo Total de Execução

#### 🕒 RESUMO DE EXECUÇÃO

In [None]:
# =============================================================
# 🕒 RESUMO DE EXECUÇÃO
# =============================================================

total_exec_time = round(time.time() - start_time, 2)

logger.info("🏁 Execução finalizada com sucesso.")
logger.info(f"⏱️ Tempo total da execução monitorada: {total_exec_time} segundos")

print("🏁 Execução finalizada com sucesso.")
print(f"⏱️ Tempo total da execução monitorada: {total_exec_time} segundos")


🏁 Execução finalizada com sucesso.
⏱️ Tempo total da execução monitorada: 211.92 segundos


#### 📡 Bloco 5A – Observabilidade e Health-check Técnico

Este notebook executa uma checagem de produção para o dataset transformado, incluindo:

- Leitura com rastreamento de tempo
- Validação de colunas obrigatórias
- Checagem de quantidade mínima de registros
- Avaliação da proporção de dados nulos

Logs estruturados são gerados para simular rastreabilidade técnica do pipeline.
