# Prepara√ß√£o dos Dados para o Dashboard (DS1)
### Este c√≥digo organiza o hist√≥rico de voos e gera os arquivos JSON que ser√£o usados para criar os gr√°ficos da interface final üõ´üìä(DS3).

In [25]:

# ==============================================================================
# CONFIGURA√á√ÉO DE AMBIENTE E IMPORTA√á√ÉO DE PIPELINE PERSONALIZADO
# ==============================================================================

import sys
import os
import zipfile
import glob
import gdown
import pandas as pd
import json

# Garantir que o Colab encontre o arquivo do script.
sys.path.append(os.getcwd())

# Importar o script de pipeline.
try:
    import flight_delay_pipeline as sc
    print("‚úÖ Script importado com sucesso!")
except ImportError:
    print("‚ùå Erro: Certifique-se de que o arquivo .py est√° na barra lateral do Colab.")


‚úÖ Script importado com sucesso!


In [26]:
# ==============================================================================
# CONSOLIDA√á√ÉO DOS DADOS E TRATAMENTO DE ENCODING (VRA)
# ==============================================================================

# Fun√ß√£o de carregamento.
def carregar_vra(pasta="/content/dados_vra/dados_vra", padrao="VRA_*.csv"):
    caminho_busca = os.path.join(pasta, padrao)
    arquivos = sorted(glob.glob(caminho_busca))

    dfs = [pd.read_csv(arq, sep=";", encoding="latin-1", skiprows=1, low_memory=False) for arq in arquivos]
    df_final = pd.concat(dfs, ignore_index=True)

    # Renomea√ß√£o das colunas para o padr√£o do projeto
    # Ajustando os nomes das colunas com base na interpreta√ß√£o 'mangelada' dos caracteres especiais
    mapa_colunas = {
        "ICAO Empresa A√É¬©rea" : "empresa_aerea",
        "ICAO Aer√É¬≥dromo Origem" : "aerodromo_origem",
        "ICAO Aer√É¬≥dromo Destino" : "aerodromo_destino",
        "Partida Prevista" : "partida_prevista",
        "Partida Real" : "partida_real",
        "Situa√É¬ß√É¬£o Voo" : "situacao_voo" # Corrigido o nome da coluna
    }
    return df_final.rename(columns=mapa_colunas)

df = carregar_vra()
print(f"‚úÖ Dataset carregado com {df.shape[0]} linhas.")

‚úÖ Dataset carregado com 3968418 linhas.


In [27]:
# ==============================================================================
# PROCESSAMENTO ANAL√çTICO: REGRAS DE NEG√ìCIO E GERA√á√ÉO DE ENTREG√ÅVEIS (JSON)
# ==============================================================================

# Preparar datas com suporte a diferentes formatos (ISO8601 lida com milissegundos).
print("‚è≥ Convertendo colunas de data...")
df['partida_prevista'] = pd.to_datetime(df['partida_prevista'], format='ISO8601')
df['partida_real'] = pd.to_datetime(df['partida_real'], format='ISO8601')

# Calcular a diferen√ßa em minutos.
# (Real - Previsto) -> positivo significa atraso.
df['minutos_atraso'] = (df['partida_real'] - df['partida_prevista']).dt.total_seconds() / 60

# REGRA DA SEMANA 4: Definir atrasado como 1 se for >= 15 minutos.
df['atrasado'] = df['minutos_atraso'].apply(lambda x: 1 if x >= 15 else 0)

# Filtrar apenas voos que foram REALIZADOS para a an√°lise do dashboard.
df_analise = df[df['situacao_voo'] == 'REALIZADO'].copy()

# Gerar resumos para o dashboard (JSONs).
def salvar_resumo(df, coluna, nome_arquivo):
    # Calculo da m√©dia (taxa de atraso) agrupada pela coluna desejada.
    resumo = df.groupby(coluna)['atrasado'].mean().round(4).to_dict()
    with open(nome_arquivo, 'w', encoding='utf-8') as f:
        json.dump(resumo, f, ensure_ascii=False, indent=4)
    print(f"üíæ Arquivo gerado: {nome_arquivo}")

# Executar as gera√ß√µes exigidas pelo cronograma.
salvar_resumo(df_analise, 'empresa_aerea', 'atraso_empresa.json')
salvar_resumo(df_analise, 'aerodromo_origem', 'atraso_origem.json')

# Gerar sazonalidade por hora.
df_analise['hora'] = df_analise['partida_prevista'].dt.hour
salvar_resumo(df_analise, 'hora', 'sazonalidade_atrasos.json')

print(f"\n‚úÖ An√°lise conclu√≠da com sucesso para {df_analise.shape[0]} voos!")


‚è≥ Convertendo colunas de data...
üíæ Arquivo gerado: atraso_empresa.json
üíæ Arquivo gerado: atraso_origem.json
üíæ Arquivo gerado: sazonalidade_atrasos.json

‚úÖ An√°lise conclu√≠da com sucesso para 3801626 voos!


### üõ´‚è∞Regra de Neg√≥cio: Consideramos como voo atrasado qualquer registro com 15 minutos ou mais de diferen√ßa entre a partida real e a prevista.


In [28]:
# ==============================================================================
# CRIA√á√ÉO DE M√âTRICAS
# ==============================================================================

# Calculando o atraso real em minutos (Partida Real - Partida Prevista).
df_analise['atraso_minutos'] = (df_analise['partida_real'] - df_analise['partida_prevista']).dt.total_seconds() / 60

# Definindo a regra de 15 minutos.
df_analise['atraso_15m'] = (df_analise['atraso_minutos'] >= 15).astype(int)

# Criando componentes para an√°lise de sazonalidade.
df_analise['hora_dia'] = df_analise['partida_prevista'].dt.hour
df_analise['dia_semana'] = df_analise['partida_prevista'].dt.day_name()

print("‚úÖ M√©tricas 'atraso_15m' e sazonalidade criadas com sucesso.")


‚úÖ M√©tricas 'atraso_15m' e sazonalidade criadas com sucesso.


In [29]:
# ==============================================================================
# GERA√á√ÉO DE JSON E VALIDA√á√ÉO VISUAL
# ==============================================================================

def exportar_e_validar(coluna, nome_arquivo):
    resumo = df_analise.groupby(coluna)['atraso_15m'].mean().reset_index()
    resumo.to_json(nome_arquivo, orient='records')
    print(f"\nüìä Valida√ß√£o: {coluna}")
    print(resumo.sort_values(by='atraso_15m', ascending=False).head(5))
    return resumo

# Gerando e validando os 5 entreg√°veis obrigat√≥rios.
print("üöÄ Iniciando exporta√ß√£o dos arquivos JSON...")
resumo_empresa = exportar_e_validar('empresa_aerea', 'atraso_empresa.json')
resumo_origem  = exportar_e_validar('aerodromo_origem', 'atraso_origem.json')
resumo_destino = exportar_e_validar('aerodromo_destino', 'atraso_destino.json')
resumo_hora    = exportar_e_validar('hora_dia', 'sazonalidade_atrasos.json')
resumo_semana  = exportar_e_validar('dia_semana', 'sazonalidade_dia_semana.json')

print("\nüèÅ Checklist: Todos os arquivos foram salvos e os n√∫meros variam (N√£o s√£o uniformes).")


üöÄ Iniciando exporta√ß√£o dos arquivos JSON...

üìä Valida√ß√£o: empresa_aerea
    empresa_aerea  atraso_15m
0             1DE         1.0
20            ARN         1.0
19            ARL         1.0
41            CFG         1.0
108           MSR         1.0

üìä Valida√ß√£o: aerodromo_origem
    aerodromo_origem  atraso_15m
490             SVBM         1.0
492             SVMG         1.0
494             SVMT         1.0
525             TAPA         1.0
19              EBOS         1.0

üìä Valida√ß√£o: aerodromo_destino
    aerodromo_destino  atraso_15m
0                BIKF         1.0
563              ZBTJ         1.0
29               EGPK         1.0
76               KACY         1.0
503              SVMC         1.0

üìä Valida√ß√£o: hora_dia
    hora_dia  atraso_15m
0        0.0    0.241690
1        1.0    0.239045
18      18.0    0.213268
17      17.0    0.212245
22      22.0    0.209365

üìä Valida√ß√£o: dia_semana
  dia_semana  atraso_15m
0     Friday    0.193514
4   T

In [30]:
# ==============================================================================
# FINALIZA√á√ÉO, CHECKLIST DE INTEGRIDADE E EXPORTA√á√ÉO (DELIVERY)
# ==============================================================================

# Gerar as agrega√ß√µes que faltavam (Aeroporto de Destino e Dia da Semana).
salvar_resumo(df_analise, 'aerodromo_destino', 'atraso_destino.json')

# Sazonalidade completa (Dia da Semana).
# Criar coluna do dia da semana.
df_analise['dia_semana'] = df_analise['partida_prevista'].dt.day_name()
salvar_resumo(df_analise, 'dia_semana', 'sazonalidade_dia_semana.json')

# Criar uma lista de confer√™ncia para garantir os entreg√°veis.
entregaveis = [
    'atraso_empresa.json',
    'atraso_origem.json',
    'atraso_destino.json',
    'sazonalidade_atrasos.json',
    'sazonalidade_dia_semana.json'
]

print("\n--- üèÅ CHECKLIST DE ENTREGA ---")
for arq in entregaveis:
    if os.path.exists(arq):
        print(f"‚úÖ {arq} pronto para download.")
    else:
        print(f"‚ùå {arq} n√£o encontrado. Verifique a gera√ß√£o.")

# Comando para baixar todos aqruivos de uma vez (Colab)
from google.colab import files
for arq in entregaveis:
    if os.path.exists(arq):
        files.download(arq)


üíæ Arquivo gerado: atraso_destino.json
üíæ Arquivo gerado: sazonalidade_dia_semana.json

--- üèÅ CHECKLIST DE ENTREGA ---
‚úÖ atraso_empresa.json pronto para download.
‚úÖ atraso_origem.json pronto para download.
‚úÖ atraso_destino.json pronto para download.
‚úÖ sazonalidade_atrasos.json pronto para download.
‚úÖ sazonalidade_dia_semana.json pronto para download.


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

##üìù Resumo Executivo: Metodologia de Dados (DS1)

1. Regra de Neg√≥cio (Conceito de Atraso)
Para garantir a padroniza√ß√£o das an√°lises em todos os gr√°ficos do dashboard, foi adotada a seguinte regra:

Defini√ß√£o: Um voo √© considerado "atrasado" quando a diferen√ßa entre o hor√°rio de Partida Real e o hor√°rio de Partida Prevista √© igual ou superior a 15 minutos.üõ´‚è∞
‚Äã

Justificativa: Este crit√©rio segue padr√µes internacionais de pontualidade na avia√ß√£o comercial, permitindo identificar gargalos operacionais significativos sem considerar pequenas varia√ß√µes irrelevantes de poucos minutos.
‚Äã

2. Per√≠odo dos Dados Analisados

Fonte: Dataset Hist√≥rico de Voos (VRA - ANAC).

Janela Temporal: O dataset processado compreende o per√≠odo de 01 de janeiro de 2020 at√© 01 de julho de 2025.üóìÔ∏è
‚Äã

Volume de Dados: Foram processados 3.801.626 voos, garantindo alta relev√¢ncia estat√≠stica para as m√©dias apresentadas nos arquivos JSON.
‚Äã

