## 1. Setup e Imports

In [None]:
import sys
sys.path.append('../src')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette('Set2')
%matplotlib inline

print('‚úì Imports conclu√≠dos')

## 2. Carregamento das M√©tricas Gold

In [None]:
GOLD_PATH = Path('../data/gold')

def load_gold_table(table_name):
    """Carrega tabela da camada Gold."""
    try:
        from deltalake import DeltaTable
        dt = DeltaTable(str(GOLD_PATH / table_name))
        df = dt.to_pandas()
        print(f"‚úì {table_name}: {len(df):,} registros")
        return df
    except Exception as e:
        print(f"‚ö† Erro ao carregar {table_name}: {e}")
        return None

# Carrega todas as tabelas Gold
print("Carregando m√©tricas da camada Gold...\n")
df_velocidade = load_gold_table('velocidade_media_por_linha')
df_ativos = load_gold_table('onibus_ativos_por_periodo')
df_cobertura = load_gold_table('cobertura_geografica')
df_criticos = load_gold_table('pontos_criticos_velocidade')

## 3. An√°lise de Velocidade por Linha

In [None]:
if df_velocidade is not None:
    print("=" * 60)
    print("VELOCIDADE M√âDIA POR LINHA")
    print("=" * 60)
    display(df_velocidade.head(10))
    
    # Top 10 linhas mais r√°pidas
    if 'numero_linha' in df_velocidade.columns:
        top_rapidas = df_velocidade.groupby('numero_linha')['velocidade_media'].mean().nlargest(10)
        
        plt.figure(figsize=(12, 6))
        top_rapidas.plot(kind='barh', color='green', edgecolor='black')
        plt.title('Top 10 Linhas Mais R√°pidas', fontsize=14, fontweight='bold')
        plt.xlabel('Velocidade M√©dia (km/h)')
        plt.ylabel('Linha')
        plt.tight_layout()
        plt.show()
    else:
        print("\n‚ö† Coluna 'numero_linha' n√£o encontrada")

In [None]:
if df_velocidade is not None:
    # Distribui√ß√£o de velocidades m√©dias
    fig, axes = plt.subplots(1, 2, figsize=(15, 5))
    
    axes[0].hist(df_velocidade['velocidade_media'], bins=30, 
                 color='skyblue', edgecolor='black')
    axes[0].set_title('Distribui√ß√£o de Velocidades M√©dias', fontweight='bold')
    axes[0].set_xlabel('Velocidade M√©dia (km/h)')
    axes[0].set_ylabel('Frequ√™ncia')
    axes[0].axvline(df_velocidade['velocidade_media'].mean(), 
                    color='red', linestyle='--', 
                    label=f'M√©dia: {df_velocidade["velocidade_media"].mean():.1f} km/h')
    axes[0].legend()
    
    axes[1].scatter(df_velocidade['velocidade_media'], 
                   df_velocidade['desvio_padrao'] if 'desvio_padrao' in df_velocidade.columns else None,
                   alpha=0.6, color='coral')
    axes[1].set_title('Velocidade M√©dia vs Desvio Padr√£o', fontweight='bold')
    axes[1].set_xlabel('Velocidade M√©dia (km/h)')
    axes[1].set_ylabel('Desvio Padr√£o')
    
    plt.tight_layout()
    plt.show()

## 4. An√°lise de √înibus Ativos por Per√≠odo

In [None]:
if df_ativos is not None:
    print("=" * 60)
    print("√îNIBUS ATIVOS POR PER√çODO")
    print("=" * 60)
    display(df_ativos.head())
    
    if 'hora' in df_ativos.columns:
        # √înibus ativos por hora
        ativos_hora = df_ativos.groupby('hora')['total_registros'].sum().sort_index()
        
        plt.figure(figsize=(14, 6))
        ativos_hora.plot(kind='line', marker='o', linewidth=2, 
                        markersize=8, color='navy')
        plt.title('Atividade de √înibus por Hora do Dia', 
                 fontsize=14, fontweight='bold')
        plt.xlabel('Hora')
        plt.ylabel('Total de Registros')
        plt.grid(alpha=0.3)
        plt.xticks(range(24))
        plt.tight_layout()
        plt.show()
        
        # Identifica hor√°rios de pico
        hora_pico = ativos_hora.idxmax()
        print(f"\nüìä Hor√°rio de Pico: {hora_pico}:00h ({ativos_hora.max():,} registros)")

In [None]:
if df_ativos is not None and 'periodo_dia' in df_ativos.columns:
    # Distribui√ß√£o por per√≠odo do dia
    ativos_periodo = df_ativos.groupby('periodo_dia')['total_registros'].sum()
    
    fig, axes = plt.subplots(1, 2, figsize=(15, 6))
    
    # Pizza
    axes[0].pie(ativos_periodo, labels=ativos_periodo.index, autopct='%1.1f%%',
               startangle=90, colors=['#ff9999','#66b3ff','#99ff99','#ffcc99'])
    axes[0].set_title('Distribui√ß√£o por Per√≠odo do Dia', fontweight='bold')
    
    # Barras
    ativos_periodo.plot(kind='bar', ax=axes[1], color='teal', edgecolor='black')
    axes[1].set_title('Total de Registros por Per√≠odo', fontweight='bold')
    axes[1].set_xlabel('Per√≠odo')
    axes[1].set_ylabel('Total de Registros')
    axes[1].tick_params(axis='x', rotation=45)
    
    plt.tight_layout()
    plt.show()

## 5. An√°lise de Cobertura Geogr√°fica

In [None]:
if df_cobertura is not None:
    print("=" * 60)
    print("COBERTURA GEOGR√ÅFICA")
    print("=" * 60)
    display(df_cobertura.head())
    
    if 'area_cobertura' in df_cobertura.columns:
        print(f"\nüìç √Årea Total de Cobertura: {df_cobertura['area_cobertura'].sum():.6f} graus¬≤")
        print(f"üìä Total de Pontos Coletados: {df_cobertura['total_pontos'].sum():,}")
        
        # Visualiza√ß√£o dos limites geogr√°ficos
        if all(col in df_cobertura.columns for col in ['lat_min', 'lat_max', 'lon_min', 'lon_max']):
            plt.figure(figsize=(10, 8))
            
            for idx, row in df_cobertura.iterrows():
                rect = plt.Rectangle(
                    (row['lon_min'], row['lat_min']),
                    row['lon_max'] - row['lon_min'],
                    row['lat_max'] - row['lat_min'],
                    fill=True, alpha=0.3, edgecolor='black'
                )
                plt.gca().add_patch(rect)
            
            plt.title('√Åreas de Cobertura', fontsize=14, fontweight='bold')
            plt.xlabel('Longitude')
            plt.ylabel('Latitude')
            plt.grid(alpha=0.3)
            plt.tight_layout()
            plt.show()

## 6. An√°lise de Pontos Cr√≠ticos

In [None]:
if df_criticos is not None:
    print("=" * 60)
    print("PONTOS CR√çTICOS DE VELOCIDADE")
    print("=" * 60)
    print(f"\nTotal de pontos cr√≠ticos identificados: {len(df_criticos):,}")
    
    display(df_criticos.head(10))
    
    if 'severidade' in df_criticos.columns:
        # Distribui√ß√£o por severidade
        sev_counts = df_criticos['severidade'].value_counts()
        
        fig, axes = plt.subplots(1, 2, figsize=(15, 6))
        
        # Pizza
        colors = {'baixa': 'lightgreen', 'media': 'yellow', 
                 'alta': 'orange', 'critica': 'red'}
        sev_counts.plot(kind='pie', ax=axes[0], autopct='%1.1f%%',
                       colors=[colors.get(x, 'gray') for x in sev_counts.index])
        axes[0].set_title('Distribui√ß√£o por Severidade', fontweight='bold')
        axes[0].set_ylabel('')
        
        # Barras
        sev_counts.plot(kind='bar', ax=axes[1], 
                       color=[colors.get(x, 'gray') for x in sev_counts.index],
                       edgecolor='black')
        axes[1].set_title('Contagem por Severidade', fontweight='bold')
        axes[1].set_xlabel('Severidade')
        axes[1].set_ylabel('Quantidade')
        axes[1].tick_params(axis='x', rotation=45)
        
        plt.tight_layout()
        plt.show()

In [None]:
if df_criticos is not None and all(col in df_criticos.columns for col in ['lat_grid', 'lon_grid', 'ocorrencias']):
    # Mapa de calor de pontos cr√≠ticos
    plt.figure(figsize=(12, 10))
    
    scatter = plt.scatter(
        df_criticos['lon_grid'],
        df_criticos['lat_grid'],
        s=df_criticos['ocorrencias'] * 10,
        c=df_criticos['velocidade_media'],
        cmap='RdYlGn_r',
        alpha=0.6,
        edgecolors='black',
        linewidth=0.5
    )
    
    plt.colorbar(scatter, label='Velocidade M√©dia (km/h)')
    plt.title('Mapa de Pontos Cr√≠ticos de Velocidade\n(tamanho = ocorr√™ncias)', 
             fontsize=14, fontweight='bold')
    plt.xlabel('Longitude')
    plt.ylabel('Latitude')
    plt.grid(alpha=0.3)
    plt.tight_layout()
    plt.show()
    
    # Top 10 pontos mais cr√≠ticos
    print("\nüö® Top 10 Pontos Mais Cr√≠ticos:")
    top_criticos = df_criticos.nlargest(10, 'ocorrencias')[['lat_grid', 'lon_grid', 'ocorrencias', 'velocidade_media']]
    display(top_criticos)

## 7. Resumo Executivo

In [None]:
print("=" * 60)
print("RESUMO EXECUTIVO - MOBILIDADE URBANA BH")
print("=" * 60)

if df_velocidade is not None:
    print(f"\nüìä VELOCIDADE:")
    print(f"   ‚Ä¢ Velocidade m√©dia geral: {df_velocidade['velocidade_media'].mean():.1f} km/h")
    print(f"   ‚Ä¢ Varia√ß√£o: {df_velocidade['velocidade_media'].min():.1f} - {df_velocidade['velocidade_media'].max():.1f} km/h")

if df_ativos is not None:
    print(f"\nüöç FROTA ATIVA:")
    print(f"   ‚Ä¢ Total de registros: {df_ativos['total_registros'].sum():,}")
    if 'total_onibus_unicos' in df_ativos.columns:
        total_unicos = df_ativos['total_onibus_unicos'].sum()
        if total_unicos > 0:
            print(f"   ‚Ä¢ √înibus √∫nicos: {total_unicos:,}")

if df_cobertura is not None:
    print(f"\nüìç COBERTURA:")
    print(f"   ‚Ä¢ Pontos coletados: {df_cobertura['total_pontos'].sum():,}")
    print(f"   ‚Ä¢ √Årea de cobertura: {df_cobertura['area_cobertura'].sum():.6f} graus¬≤")

if df_criticos is not None:
    print(f"\n‚ö†Ô∏è  PONTOS CR√çTICOS:")
    print(f"   ‚Ä¢ Total identificados: {len(df_criticos):,}")
    if 'severidade' in df_criticos.columns:
        criticos = (df_criticos['severidade'] == 'critica').sum()
        print(f"   ‚Ä¢ Cr√≠ticos: {criticos}")

print("\n" + "=" * 60)

## 8. Conclus√µes

Este notebook apresentou an√°lises das principais m√©tricas de neg√≥cio:

- ‚úÖ **Velocidade**: Identificamos padr√µes e linhas mais/menos eficientes
- ‚úÖ **Atividade**: Analisamos hor√°rios de pico e per√≠odos de maior movimento
- ‚úÖ **Cobertura**: Mapeamos a abrang√™ncia geogr√°fica do sistema
- ‚úÖ **Gargalos**: Identificamos pontos cr√≠ticos que necessitam aten√ß√£o

### Pr√≥ximos Passos

1. An√°lise temporal mais profunda (tend√™ncias, sazonalidade)
2. Correla√ß√£o com eventos externos (clima, eventos)
3. Modelos preditivos de velocidade e demanda
4. Otimiza√ß√£o de rotas baseada em dados hist√≥ricos