# üìà Valida√ß√£o de KPIs - Pipeline SPTrans

Este notebook valida os principais KPIs (Key Performance Indicators) do pipeline de dados SPTrans.

## Objetivos
1. Validar KPIs operacionais do transporte p√∫blico
2. Analisar m√©tricas de qualidade de dados
3. Verificar SLAs e performance do pipeline
4. Gerar dashboards de acompanhamento
5. Identificar oportunidades de melhoria

---

In [None]:
# Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import psycopg2
from sqlalchemy import create_engine
import warnings
from datetime import datetime, timedelta
from pathlib import Path
import json
import os
from dotenv import load_dotenv

# Configura√ß√µes
warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', lambda x: f'{x:.2f}')
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (16, 8)

# Carregar vari√°veis de ambiente
load_dotenv('../.env')

print("‚úÖ Bibliotecas importadas com sucesso!")

## 1Ô∏è‚É£ Conex√£o com o Banco de Dados

In [None]:
# Configura√ß√µes do PostgreSQL
DB_HOST = os.getenv('POSTGRES_HOST', 'localhost')
DB_PORT = os.getenv('POSTGRES_PORT', '5432')
DB_NAME = os.getenv('POSTGRES_DB', 'sptrans_serving')
DB_USER = os.getenv('POSTGRES_USER', 'admin')
DB_PASSWORD = os.getenv('POSTGRES_PASSWORD', 'admin123')

# String de conex√£o
connection_string = f'postgresql://{DB_USER}:{DB_PASSWORD}@{DB_HOST}:{DB_PORT}/{DB_NAME}'

try:
    # Criar engine
    engine = create_engine(connection_string)
    
    # Testar conex√£o
    with engine.connect() as conn:
        result = conn.execute('SELECT version();')
        version = result.fetchone()[0]
        print(f"‚úÖ Conectado ao PostgreSQL")
        print(f"   Vers√£o: {version}")
        print(f"   Host: {DB_HOST}:{DB_PORT}")
        print(f"   Database: {DB_NAME}")
        
except Exception as e:
    print(f"‚ùå Erro ao conectar ao banco de dados: {e}")
    print("\nVerifique:")
    print("  1. PostgreSQL est√° rodando")
    print("  2. Credenciais no arquivo .env")
    print("  3. Database 'sptrans_serving' existe")
    engine = None

## 2Ô∏è‚É£ KPIs Operacionais - Transporte P√∫blico

In [None]:
print("üöå KPIs OPERACIONAIS - TRANSPORTE P√öBLICO")
print("=" * 80)

kpis_operacionais = {}

if engine:
    try:
        # 1. Total de Rotas Ativas
        query = """
        SELECT COUNT(DISTINCT route_id) as total_rotas
        FROM routes
        WHERE is_active = true;
        """
        df = pd.read_sql(query, engine)
        total_rotas = df['total_rotas'].iloc[0] if not df.empty else 0
        kpis_operacionais['total_rotas_ativas'] = total_rotas
        print(f"\nüìä Total de Rotas Ativas: {total_rotas:,}")
        
    except Exception as e:
        print(f"‚ö†Ô∏è Tabela 'routes' n√£o dispon√≠vel: {e}")

    try:
        # 2. Total de Paradas
        query = """
        SELECT COUNT(DISTINCT stop_id) as total_paradas
        FROM stops;
        """
        df = pd.read_sql(query, engine)
        total_paradas = df['total_paradas'].iloc[0] if not df.empty else 0
        kpis_operacionais['total_paradas'] = total_paradas
        print(f"\nüöè Total de Paradas: {total_paradas:,}")
        
    except Exception as e:
        print(f"‚ö†Ô∏è Tabela 'stops' n√£o dispon√≠vel: {e}")

    try:
        # 3. Ve√≠culos Ativos (√∫ltima hora)
        query = """
        SELECT COUNT(DISTINCT vehicle_id) as veiculos_ativos
        FROM vehicle_positions
        WHERE timestamp >= NOW() - INTERVAL '1 hour';
        """
        df = pd.read_sql(query, engine)
        veiculos_ativos = df['veiculos_ativos'].iloc[0] if not df.empty else 0
        kpis_operacionais['veiculos_ativos_1h'] = veiculos_ativos
        print(f"\nüöç Ve√≠culos Ativos (√∫ltima hora): {veiculos_ativos:,}")
        
    except Exception as e:
        print(f"‚ö†Ô∏è Tabela 'vehicle_positions' n√£o dispon√≠vel: {e}")

    try:
        # 4. Posi√ß√µes Capturadas (hoje)
        query = """
        SELECT COUNT(*) as total_posicoes
        FROM vehicle_positions
        WHERE DATE(timestamp) = CURRENT_DATE;
        """
        df = pd.read_sql(query, engine)
        posicoes_hoje = df['total_posicoes'].iloc[0] if not df.empty else 0
        kpis_operacionais['posicoes_capturadas_hoje'] = posicoes_hoje
        print(f"\nüìç Posi√ß√µes Capturadas (hoje): {posicoes_hoje:,}")
        
    except Exception as e:
        print(f"‚ö†Ô∏è Erro ao consultar posi√ß√µes de hoje: {e}")

else:
    print("‚ö†Ô∏è Banco de dados n√£o conectado. Usando dados simulados...")
    
    # Dados simulados para demonstra√ß√£o
    kpis_operacionais = {
        'total_rotas_ativas': 1350,
        'total_paradas': 22000,
        'veiculos_ativos_1h': 8500,
        'posicoes_capturadas_hoje': 2450000
    }
    
    print(f"\nüìä Total de Rotas Ativas: {kpis_operacionais['total_rotas_ativas']:,}")
    print(f"\nüöè Total de Paradas: {kpis_operacionais['total_paradas']:,}")
    print(f"\nüöç Ve√≠culos Ativos (√∫ltima hora): {kpis_operacionais['veiculos_ativos_1h']:,}")
    print(f"\nüìç Posi√ß√µes Capturadas (hoje): {kpis_operacionais['posicoes_capturadas_hoje']:,}")

print("\n" + "=" * 80)

In [None]:
# Visualiza√ß√£o dos KPIs Operacionais
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# KPI 1: Rotas Ativas
axes[0, 0].bar(['Rotas Ativas'], [kpis_operacionais['total_rotas_ativas']], color='steelblue', width=0.5)
axes[0, 0].set_title('Total de Rotas Ativas', fontsize=14, fontweight='bold')
axes[0, 0].set_ylabel('Quantidade')
axes[0, 0].text(0, kpis_operacionais['total_rotas_ativas']/2, 
                f"{kpis_operacionais['total_rotas_ativas']:,}", 
                ha='center', va='center', fontsize=20, fontweight='bold', color='white')

# KPI 2: Paradas
axes[0, 1].bar(['Paradas'], [kpis_operacionais['total_paradas']], color='coral', width=0.5)
axes[0, 1].set_title('Total de Paradas', fontsize=14, fontweight='bold')
axes[0, 1].set_ylabel('Quantidade')
axes[0, 1].text(0, kpis_operacionais['total_paradas']/2, 
                f"{kpis_operacionais['total_paradas']:,}", 
                ha='center', va='center', fontsize=20, fontweight='bold', color='white')

# KPI 3: Ve√≠culos Ativos
axes[1, 0].bar(['Ve√≠culos (1h)'], [kpis_operacionais['veiculos_ativos_1h']], color='seagreen', width=0.5)
axes[1, 0].set_title('Ve√≠culos Ativos (√öltima Hora)', fontsize=14, fontweight='bold')
axes[1, 0].set_ylabel('Quantidade')
axes[1, 0].text(0, kpis_operacionais['veiculos_ativos_1h']/2, 
                f"{kpis_operacionais['veiculos_ativos_1h']:,}", 
                ha='center', va='center', fontsize=20, fontweight='bold', color='white')

# KPI 4: Posi√ß√µes Capturadas
axes[1, 1].bar(['Posi√ß√µes (hoje)'], [kpis_operacionais['posicoes_capturadas_hoje']], color='purple', width=0.5)
axes[1, 1].set_title('Posi√ß√µes Capturadas (Hoje)', fontsize=14, fontweight='bold')
axes[1, 1].set_ylabel('Quantidade')
axes[1, 1].text(0, kpis_operacionais['posicoes_capturadas_hoje']/2, 
                f"{kpis_operacionais['posicoes_capturadas_hoje']:,}", 
                ha='center', va='center', fontsize=20, fontweight='bold', color='white')

plt.tight_layout()
plt.show()

## 3Ô∏è‚É£ KPIs de Qualidade de Dados

In [None]:
print("‚úÖ KPIs DE QUALIDADE DE DADOS")
print("=" * 80)

kpis_qualidade = {}

if engine:
    try:
        # 1. Completude - Posi√ß√µes com coordenadas v√°lidas
        query = """
        SELECT 
            COUNT(*) as total,
            COUNT(latitude) as com_lat,
            COUNT(longitude) as com_lon,
            ROUND(100.0 * COUNT(latitude) / COUNT(*), 2) as completude_lat,
            ROUND(100.0 * COUNT(longitude) / COUNT(*), 2) as completude_lon
        FROM vehicle_positions
        WHERE DATE(timestamp) = CURRENT_DATE;
        """
        df = pd.read_sql(query, engine)
        if not df.empty:
            completude = (df['completude_lat'].iloc[0] + df['completude_lon'].iloc[0]) / 2
            kpis_qualidade['completude_coordenadas'] = completude
            print(f"\nüìä Completude de Coordenadas: {completude:.2f}%")
        
    except Exception as e:
        print(f"‚ö†Ô∏è Erro ao calcular completude: {e}")

    try:
        # 2. Acur√°cia - Coordenadas dentro do per√≠metro de SP
        query = """
        SELECT 
            COUNT(*) as total,
            COUNT(*) FILTER (
                WHERE latitude BETWEEN -24.0 AND -23.3
                AND longitude BETWEEN -46.9 AND -46.3
            ) as dentro_sp,
            ROUND(100.0 * COUNT(*) FILTER (
                WHERE latitude BETWEEN -24.0 AND -23.3
                AND longitude BETWEEN -46.9 AND -46.3
            ) / COUNT(*), 2) as acuracia
        FROM vehicle_positions
        WHERE DATE(timestamp) = CURRENT_DATE
        AND latitude IS NOT NULL
        AND longitude IS NOT NULL;
        """
        df = pd.read_sql(query, engine)
        if not df.empty:
            acuracia = df['acuracia'].iloc[0]
            kpis_qualidade['acuracia_localizacao'] = acuracia
            print(f"\nüéØ Acur√°cia de Localiza√ß√£o: {acuracia:.2f}%")
        
    except Exception as e:
        print(f"‚ö†Ô∏è Erro ao calcular acur√°cia: {e}")

    try:
        # 3. Consist√™ncia - Registros duplicados
        query = """
        WITH duplicates AS (
            SELECT vehicle_id, timestamp, COUNT(*) as cnt
            FROM vehicle_positions
            WHERE DATE(timestamp) = CURRENT_DATE
            GROUP BY vehicle_id, timestamp
            HAVING COUNT(*) > 1
        )
        SELECT 
            (SELECT COUNT(*) FROM vehicle_positions WHERE DATE(timestamp) = CURRENT_DATE) as total,
            COALESCE(SUM(cnt), 0) as duplicados,
            ROUND(100.0 * (1 - COALESCE(SUM(cnt), 0)::float / 
                (SELECT COUNT(*) FROM vehicle_positions WHERE DATE(timestamp) = CURRENT_DATE)), 2) as consistencia
        FROM duplicates;
        """
        df = pd.read_sql(query, engine)
        if not df.empty:
            consistencia = df['consistencia'].iloc[0]
            kpis_qualidade['consistencia_dados'] = consistencia
            print(f"\nüîó Consist√™ncia de Dados: {consistencia:.2f}%")
        
    except Exception as e:
        print(f"‚ö†Ô∏è Erro ao calcular consist√™ncia: {e}")

    try:
        # 4. Atualidade - Dados recentes (√∫ltima hora)
        query = """
        SELECT 
            COUNT(*) as total_hoje,
            COUNT(*) FILTER (WHERE timestamp >= NOW() - INTERVAL '1 hour') as ultima_hora,
            ROUND(100.0 * COUNT(*) FILTER (WHERE timestamp >= NOW() - INTERVAL '1 hour') / 
                NULLIF(COUNT(*), 0), 2) as atualidade
        FROM vehicle_positions
        WHERE DATE(timestamp) = CURRENT_DATE;
        """
        df = pd.read_sql(query, engine)
        if not df.empty and df['total_hoje'].iloc[0] > 0:
            atualidade = df['atualidade'].iloc[0]
            kpis_qualidade['atualidade_dados'] = atualidade
            print(f"\n‚è∞ Atualidade dos Dados: {atualidade:.2f}%")
        
    except Exception as e:
        print(f"‚ö†Ô∏è Erro ao calcular atualidade: {e}")

else:
    print("‚ö†Ô∏è Banco de dados n√£o conectado. Usando dados simulados...")
    
    kpis_qualidade = {
        'completude_coordenadas': 98.75,
        'acuracia_localizacao': 99.2,
        'consistencia_dados': 99.8,
        'atualidade_dados': 95.5
    }
    
    print(f"\nüìä Completude de Coordenadas: {kpis_qualidade['completude_coordenadas']:.2f}%")
    print(f"\nüéØ Acur√°cia de Localiza√ß√£o: {kpis_qualidade['acuracia_localizacao']:.2f}%")
    print(f"\nüîó Consist√™ncia de Dados: {kpis_qualidade['consistencia_dados']:.2f}%")
    print(f"\n‚è∞ Atualidade dos Dados: {kpis_qualidade['atualidade_dados']:.2f}%")

# Score geral de qualidade
if kpis_qualidade:
    score_qualidade = np.mean(list(kpis_qualidade.values()))
    print(f"\n‚≠ê SCORE GERAL DE QUALIDADE: {score_qualidade:.2f}%")
    
    if score_qualidade >= 95:
        print("   ‚úÖ Excelente!")
    elif score_qualidade >= 90:
        print("   ‚ö†Ô∏è Bom, mas pode melhorar")
    else:
        print("   ‚ùå Aten√ß√£o necess√°ria")

print("\n" + "=" * 80)

In [None]:
# Visualiza√ß√£o dos KPIs de Qualidade
if kpis_qualidade:
    fig, axes = plt.subplots(1, 2, figsize=(16, 6))
    
    # Gr√°fico de barras
    dimensoes = ['Completude', 'Acur√°cia', 'Consist√™ncia', 'Atualidade']
    valores = list(kpis_qualidade.values())
    cores = ['steelblue', 'coral', 'seagreen', 'purple']
    
    bars = axes[0].bar(dimensoes, valores, color=cores, alpha=0.8)
    axes[0].set_title('Dimens√µes de Qualidade de Dados', fontsize=14, fontweight='bold')
    axes[0].set_ylabel('Score (%)')
    axes[0].set_ylim(0, 100)
    axes[0].axhline(y=95, color='green', linestyle='--', alpha=0.5, label='Meta: 95%')
    axes[0].axhline(y=90, color='orange', linestyle='--', alpha=0.5, label='Alerta: 90%')
    axes[0].legend()
    axes[0].grid(axis='y', alpha=0.3)
    
    # Adicionar valores nas barras
    for bar, val in zip(bars, valores):
        height = bar.get_height()
        axes[0].text(bar.get_x() + bar.get_width()/2., height,
                    f'{val:.1f}%', ha='center', va='bottom', fontsize=11, fontweight='bold')
    
    # Gr√°fico de radar
    angles = np.linspace(0, 2 * np.pi, len(dimensoes), endpoint=False).tolist()
    valores_radar = valores + [valores[0]]  # Fechar o pol√≠gono
    angles += angles[:1]
    
    ax = plt.subplot(122, projection='polar')
    ax.plot(angles, valores_radar, 'o-', linewidth=2, color='steelblue', label='Atual')
    ax.fill(angles, valores_radar, alpha=0.25, color='steelblue')
    ax.plot(angles, [95]*len(angles), '--', linewidth=1, color='green', alpha=0.5, label='Meta: 95%')
    ax.set_xticks(angles[:-1])
    ax.set_xticklabels(dimensoes)
    ax.set_ylim(0, 100)
    ax.set_title('Radar de Qualidade de Dados', fontsize=14, fontweight='bold', pad=20)
    ax.legend(loc='upper right', bbox_to_anchor=(1.3, 1.1))
    ax.grid(True)
    
    plt.tight_layout()
    plt.show()

## 4Ô∏è‚É£ KPIs de Performance do Pipeline

In [None]:
print("‚ö° KPIs DE PERFORMANCE DO PIPELINE")
print("=" * 80)

kpis_performance = {}

if engine:
    try:
        # 1. Lat√™ncia de Ingest√£o (tempo m√©dio de processamento)
        query = """
        SELECT 
            AVG(processing_time_seconds) as latencia_media,
            MIN(processing_time_seconds) as latencia_min,
            MAX(processing_time_seconds) as latencia_max,
            PERCENTILE_CONT(0.95) WITHIN GROUP (ORDER BY processing_time_seconds) as p95_latencia
        FROM pipeline_metrics
        WHERE DATE(execution_date) >= CURRENT_DATE - INTERVAL '7 days'
        AND stage = 'ingestion';
        """
        df = pd.read_sql(query, engine)
        if not df.empty and df['latencia_media'].iloc[0]:
            kpis_performance['latencia_media_s'] = df['latencia_media'].iloc[0]
            kpis_performance['p95_latencia_s'] = df['p95_latencia'].iloc[0]
            print(f"\n‚è±Ô∏è Lat√™ncia M√©dia de Ingest√£o: {df['latencia_media'].iloc[0]:.2f}s")
            print(f"   P95 Lat√™ncia: {df['p95_latencia'].iloc[0]:.2f}s")
        
    except Exception as e:
        print(f"‚ö†Ô∏è Tabela 'pipeline_metrics' n√£o dispon√≠vel: {e}")

    try:
        # 2. Taxa de Sucesso dos Jobs
        query = """
        SELECT 
            COUNT(*) as total_execucoes,
            COUNT(*) FILTER (WHERE status = 'success') as sucesso,
            COUNT(*) FILTER (WHERE status = 'failed') as falhas,
            ROUND(100.0 * COUNT(*) FILTER (WHERE status = 'success') / COUNT(*), 2) as taxa_sucesso
        FROM pipeline_metrics
        WHERE DATE(execution_date) >= CURRENT_DATE - INTERVAL '7 days';
        """
        df = pd.read_sql(query, engine)
        if not df.empty:
            taxa_sucesso = df['taxa_sucesso'].iloc[0]
            kpis_performance['taxa_sucesso'] = taxa_sucesso
            print(f"\n‚úÖ Taxa de Sucesso (7 dias): {taxa_sucesso:.2f}%")
            print(f"   Total de execu√ß√µes: {df['total_execucoes'].iloc[0]:,}")
            print(f"   Sucessos: {df['sucesso'].iloc[0]:,}")
            print(f"   Falhas: {df['falhas'].iloc[0]:,}")
        
    except Exception as e:
        print(f"‚ö†Ô∏è Erro ao calcular taxa de sucesso: {e}")

    try:
        # 3. Volume de Dados Processados
        query = """
        SELECT 
            SUM(records_processed) as total_registros,
            AVG(records_processed) as media_registros,
            SUM(bytes_processed) / (1024*1024*1024) as total_gb
        FROM pipeline_metrics
        WHERE DATE(execution_date) = CURRENT_DATE;
        """
        df = pd.read_sql(query, engine)
        if not df.empty and df['total_registros'].iloc[0]:
            kpis_performance['registros_processados_hoje'] = df['total_registros'].iloc[0]
            kpis_performance['volume_gb_hoje'] = df['total_gb'].iloc[0]
            print(f"\nüìä Registros Processados (hoje): {df['total_registros'].iloc[0]:,.0f}")
            print(f"   Volume de dados: {df['total_gb'].iloc[0]:.2f} GB")
        
    except Exception as e:
        print(f"‚ö†Ô∏è Erro ao calcular volume de dados: {e}")

    try:
        # 4. SLA - Disponibilidade
        query = """
        SELECT 
            COUNT(*) FILTER (WHERE status = 'success' AND 
                processing_time_seconds <= 120) as dentro_sla,
            COUNT(*) as total,
            ROUND(100.0 * COUNT(*) FILTER (WHERE status = 'success' AND 
                processing_time_seconds <= 120) / COUNT(*), 2) as sla_compliance
        FROM pipeline_metrics
        WHERE DATE(execution_date) >= CURRENT_DATE - INTERVAL '7 days'
        AND stage = 'ingestion';
        """
        df = pd.read_sql(query, engine)
        if not df.empty and df['total'].iloc[0] > 0:
            sla = df['sla_compliance'].iloc[0]
            kpis_performance['sla_compliance'] = sla
            print(f"\nüéØ SLA Compliance (< 120s): {sla:.2f}%")
        
    except Exception as e:
        print(f"‚ö†Ô∏è Erro ao calcular SLA: {e}")

else:
    print("‚ö†Ô∏è Banco de dados n√£o conectado. Usando dados simulados...")
    
    kpis_performance = {
        'latencia_media_s': 45.3,
        'p95_latencia_s': 89.7,
        'taxa_sucesso': 99.2,
        'registros_processados_hoje': 2450000,
        'volume_gb_hoje': 8.5,
        'sla_compliance': 98.8
    }
    
    print(f"\n‚è±Ô∏è Lat√™ncia M√©dia de Ingest√£o: {kpis_performance['latencia_media_s']:.2f}s")
    print(f"   P95 Lat√™ncia: {kpis_performance['p95_latencia_s']:.2f}s")
    print(f"\n‚úÖ Taxa de Sucesso (7 dias): {kpis_performance['taxa_sucesso']:.2f}%")
    print(f"\nüìä Registros Processados (hoje): {kpis_performance['registros_processados_hoje']:,.0f}")
    print(f"   Volume de dados: {kpis_performance['volume_gb_hoje']:.2f} GB")
    print(f"\nüéØ SLA Compliance (< 120s): {kpis_performance['sla_compliance']:.2f}%")

print("\n" + "=" * 80)

In [None]:
# Visualiza√ß√£o dos KPIs de Performance
if kpis_performance:
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    
    # 1. Lat√™ncia
    if 'latencia_media_s' in kpis_performance:
        latencias = ['M√©dia', 'P95', 'SLA (120s)']
        valores_lat = [
            kpis_performance['latencia_media_s'],
            kpis_performance.get('p95_latencia_s', 0),
            120
        ]
        cores_lat = ['steelblue', 'coral', 'green']
        
        axes[0, 0].barh(latencias, valores_lat, color=cores_lat, alpha=0.8)
        axes[0, 0].set_title('Lat√™ncias de Processamento', fontsize=14, fontweight='bold')
        axes[0, 0].set_xlabel('Tempo (segundos)')
        axes[0, 0].grid(axis='x', alpha=0.3)
        
        for i, (lat, val) in enumerate(zip(latencias, valores_lat)):
            axes[0, 0].text(val, i, f' {val:.1f}s', va='center', fontsize=10, fontweight='bold')
    
    # 2. Taxa de Sucesso
    if 'taxa_sucesso' in kpis_performance:
        taxa = kpis_performance['taxa_sucesso']
        falha = 100 - taxa
        
        axes[0, 1].pie([taxa, falha], labels=['Sucesso', 'Falha'], 
                      autopct='%1.2f%%', startangle=90,
                      colors=['lightgreen', 'lightcoral'])
        axes[0, 1].set_title('Taxa de Sucesso dos Jobs (7 dias)', fontsize=14, fontweight='bold')
    
    # 3. Volume de Dados
    if 'volume_gb_hoje' in kpis_performance:
        axes[1, 0].bar(['Volume Processado'], [kpis_performance['volume_gb_hoje']], 
                      color='purple', width=0.5, alpha=0.8)
        axes[1, 0].set_title('Volume de Dados Processados (Hoje)', fontsize=14, fontweight='bold')
        axes[1, 0].set_ylabel('GB')
        axes[1, 0].text(0, kpis_performance['volume_gb_hoje']/2, 
                       f"{kpis_performance['volume_gb_hoje']:.2f} GB",
                       ha='center', va='center', fontsize=16, fontweight='bold', color='white')
    
    # 4. SLA Compliance
    if 'sla_compliance' in kpis_performance:
        sla = kpis_performance['sla_compliance']
        
        axes[1, 1].bar(['SLA Compliance'], [sla], color='seagreen', width=0.5, alpha=0.8)
        axes[1, 1].axhline(y=99, color='gold', linestyle='--', linewidth=2, label='Meta: 99%')
        axes[1, 1].axhline(y=95, color='orange', linestyle='--', linewidth=2, label='M√≠nimo: 95%')
        axes[1, 1].set_title('SLA Compliance', fontsize=14, fontweight='bold')
        axes[1, 1].set_ylabel('Percentual (%)')
        axes[1, 1].set_ylim(0, 100)
        axes[1, 1].legend()
        axes[1, 1].text(0, sla/2, f"{sla:.2f}%",
                       ha='center', va='center', fontsize=16, fontweight='bold', color='white')
    
    plt.tight_layout()
    plt.show()

## 5Ô∏è‚É£ Dashboard Executivo - Resumo de KPIs

In [None]:
# Criar dashboard executivo
print("üìä DASHBOARD EXECUTIVO - RESUMO DE KPIs")
print("=" * 80)

# Preparar dados
dashboard_data = {
    'Categoria': [],
    'KPI': [],
    'Valor': [],
    'Status': []
}

# KPIs Operacionais
for key, value in kpis_operacionais.items():
    dashboard_data['Categoria'].append('Operacional')
    dashboard_data['KPI'].append(key.replace('_', ' ').title())
    dashboard_data['Valor'].append(f"{value:,}")
    dashboard_data['Status'].append('‚úÖ')

# KPIs de Qualidade
for key, value in kpis_qualidade.items():
    dashboard_data['Categoria'].append('Qualidade')
    dashboard_data['KPI'].append(key.replace('_', ' ').title())
    dashboard_data['Valor'].append(f"{value:.2f}%")
    status = '‚úÖ' if value >= 95 else ('‚ö†Ô∏è' if value >= 90 else '‚ùå')
    dashboard_data['Status'].append(status)

# KPIs de Performance
for key, value in kpis_performance.items():
    dashboard_data['Categoria'].append('Performance')
    kpi_name = key.replace('_', ' ').title()
    
    if 's' in key.lower():
        valor_formatado = f"{value:.2f}s"
    elif 'gb' in key.lower():
        valor_formatado = f"{value:.2f} GB"
    elif '%' in str(value) or 'taxa' in key or 'sla' in key or 'compliance' in key:
        valor_formatado = f"{value:.2f}%"
    else:
        valor_formatado = f"{value:,.0f}"
    
    dashboard_data['Valor'].append(valor_formatado)
    
    if 'taxa' in key or 'sla' in key or 'compliance' in key:
        status = '‚úÖ' if value >= 95 else ('‚ö†Ô∏è' if value >= 90 else '‚ùå')
    else:
        status = '‚úÖ'
    
    dashboard_data['Status'].append(status)

# Criar DataFrame
df_dashboard = pd.DataFrame(dashboard_data)

# Exibir por categoria
for categoria in df_dashboard['Categoria'].unique():
    print(f"\n{'='*80}")
    print(f"üìå {categoria.upper()}")
    print(f"{'='*80}")
    df_cat = df_dashboard[df_dashboard['Categoria'] == categoria][['KPI', 'Valor', 'Status']]
    display(df_cat.to_string(index=False))

print(f"\n{'='*80}")
print(f"\n‚è∞ √öltima atualiza√ß√£o: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print(f"\n‚úÖ Dashboard atualizado com sucesso!")

## 6Ô∏è‚É£ An√°lise de Tend√™ncias (√öltimos 7 dias)

In [None]:
print("üìà AN√ÅLISE DE TEND√äNCIAS - √öLTIMOS 7 DIAS")
print("=" * 80)

if engine:
    try:
        # Volume de dados por dia
        query = """
        SELECT 
            DATE(timestamp) as data,
            COUNT(*) as total_registros
        FROM vehicle_positions
        WHERE DATE(timestamp) >= CURRENT_DATE - INTERVAL '7 days'
        GROUP BY DATE(timestamp)
        ORDER BY data;
        """
        df_tendencia = pd.read_sql(query, engine)
        
        if not df_tendencia.empty:
            plt.figure(figsize=(14, 6))
            plt.plot(df_tendencia['data'], df_tendencia['total_registros'], 
                    marker='o', linewidth=2, markersize=8, color='steelblue')
            plt.title('Volume de Registros por Dia (√öltimos 7 dias)', fontsize=14, fontweight='bold')
            plt.xlabel('Data')
            plt.ylabel('Total de Registros')
            plt.xticks(rotation=45)
            plt.grid(alpha=0.3)
            plt.tight_layout()
            plt.show()
            
            print(f"\nüìä M√©dia di√°ria: {df_tendencia['total_registros'].mean():,.0f} registros")
            print(f"üìà Dia com mais dados: {df_tendencia.loc[df_tendencia['total_registros'].idxmax(), 'data']}")
            print(f"üìâ Dia com menos dados: {df_tendencia.loc[df_tendencia['total_registros'].idxmin(), 'data']}")
        
    except Exception as e:
        print(f"‚ö†Ô∏è Erro ao analisar tend√™ncias: {e}")
else:
    print("‚ö†Ô∏è Banco de dados n√£o conectado. Pulando an√°lise de tend√™ncias...")

print("\n" + "=" * 80)

## 7Ô∏è‚É£ Recomenda√ß√µes e A√ß√µes

In [None]:
print("üí° RECOMENDA√á√ïES E A√á√ïES")
print("=" * 80)

recomendacoes = []

# An√°lise de qualidade
if kpis_qualidade:
    score_qualidade = np.mean(list(kpis_qualidade.values()))
    if score_qualidade < 95:
        recomendacoes.append({
            'prioridade': 'ALTA',
            'categoria': 'Qualidade',
            'recomendacao': f'Score de qualidade em {score_qualidade:.2f}% - implementar valida√ß√µes adicionais',
            'acao': 'Revisar regras de valida√ß√£o e implementar alertas'
        })

# An√°lise de performance
if kpis_performance:
    if kpis_performance.get('taxa_sucesso', 100) < 99:
        recomendacoes.append({
            'prioridade': 'M√âDIA',
            'categoria': 'Performance',
            'recomendacao': 'Taxa de sucesso abaixo de 99% - investigar falhas',
            'acao': 'Analisar logs de erros e implementar retry logic'
        })
    
    if kpis_performance.get('latencia_media_s', 0) > 60:
        recomendacoes.append({
            'prioridade': 'M√âDIA',
            'categoria': 'Performance',
            'recomendacao': f"Lat√™ncia m√©dia em {kpis_performance['latencia_media_s']:.2f}s - otimizar processamento",
            'acao': 'Revisar queries e considerar paraleliza√ß√£o'
        })

# Recomenda√ß√µes gerais
recomendacoes.extend([
    {
        'prioridade': 'BAIXA',
        'categoria': 'Monitoramento',
        'recomendacao': 'Implementar dashboards em tempo real',
        'acao': 'Configurar Grafana com m√©tricas do Prometheus'
    },
    {
        'prioridade': 'BAIXA',
        'categoria': 'Documenta√ß√£o',
        'recomendacao': 'Manter documenta√ß√£o de KPIs atualizada',
        'acao': 'Revisar e atualizar docs/07_metadata_catalog.md'
    }
])

# Exibir recomenda√ß√µes
df_recomendacoes = pd.DataFrame(recomendacoes)

for prioridade in ['ALTA', 'M√âDIA', 'BAIXA']:
    df_prior = df_recomendacoes[df_recomendacoes['prioridade'] == prioridade]
    if not df_prior.empty:
        print(f"\n{'='*80}")
        print(f"üö® PRIORIDADE {prioridade}")
        print(f"{'='*80}")
        for _, row in df_prior.iterrows():
            print(f"\nüìå Categoria: {row['categoria']}")
            print(f"   Recomenda√ß√£o: {row['recomendacao']}")
            print(f"   A√ß√£o: {row['acao']}")

print(f"\n{'='*80}")

## üìù Exportar Relat√≥rio de KPIs

In [None]:
# Preparar relat√≥rio completo
report = {
    'timestamp': datetime.now().isoformat(),
    'kpis_operacionais': kpis_operacionais,
    'kpis_qualidade': kpis_qualidade,
    'kpis_performance': kpis_performance,
    'score_qualidade': float(np.mean(list(kpis_qualidade.values()))) if kpis_qualidade else None,
    'recomendacoes': recomendacoes,
    'dashboard': dashboard_data
}

# Salvar relat√≥rio JSON
report_path = '../data/samples/kpi_validation_report.json'
Path(report_path).parent.mkdir(parents=True, exist_ok=True)

with open(report_path, 'w', encoding='utf-8') as f:
    json.dump(report, f, indent=2, ensure_ascii=False, default=str)

print(f"‚úÖ Relat√≥rio JSON salvo em: {report_path}")

# Salvar dashboard em CSV
csv_path = '../data/samples/kpi_dashboard.csv'
df_dashboard.to_csv(csv_path, index=False)
print(f"‚úÖ Dashboard CSV salvo em: {csv_path}")

# Salvar recomenda√ß√µes em CSV
rec_path = '../data/samples/kpi_recomendacoes.csv'
if recomendacoes:
    df_recomendacoes.to_csv(rec_path, index=False)
    print(f"‚úÖ Recomenda√ß√µes salvas em: {rec_path}")

print(f"\n‚úÖ Todos os relat√≥rios exportados com sucesso!")

## üéØ Conclus√£o

In [None]:
print("üéØ CONCLUS√ÉO - VALIDA√á√ÉO DE KPIs")
print("=" * 80)

print("\n‚úÖ Valida√ß√£o de KPIs conclu√≠da com sucesso!")
print("\nüìä Resumo:")
print(f"   - {len(kpis_operacionais)} KPIs operacionais validados")
print(f"   - {len(kpis_qualidade)} dimens√µes de qualidade avaliadas")
print(f"   - {len(kpis_performance)} m√©tricas de performance analisadas")
print(f"   - {len(recomendacoes)} recomenda√ß√µes geradas")

if kpis_qualidade:
    score = np.mean(list(kpis_qualidade.values()))
    print(f"\n‚≠ê Score Geral de Qualidade: {score:.2f}%")

print("\nüìå Pr√≥ximos passos:")
print("   1. Implementar alertas autom√°ticos para KPIs cr√≠ticos")
print("   2. Configurar dashboards em tempo real no Grafana")
print("   3. Automatizar gera√ß√£o de relat√≥rios semanais")
print("   4. Revisar e ajustar metas de SLA")

print("\n" + "=" * 80)
print(f"üìÖ Relat√≥rio gerado em: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print("=" * 80)