# ‚úàÔ∏è Projeto FlightOnTime: Engenharia de Dados para Previs√£o de Atrasos

Este notebook documenta a prepara√ß√£o completa dos dados de voos hist√≥ricos da ANAC. O objetivo √© transformar bases brutas em um dataset refinado e inteligente, capaz de alimentar modelos de Machine Learning para a previs√£o de atrasos no setor a√©reo brasileiro.

---

# Configura√ß√£o do Ambiente de Trabalho

Todo projeto de Ci√™ncia de Dados de alta performance come√ßa com a prepara√ß√£o do terreno. Nesta etapa, carregamos as ferramentas essenciais para manipula√ß√£o de grandes volumes de dados e estabelecemos a conex√£o com o Google Drive. Isso garante que os arquivos pesados de voos e clima sejam acessados com estabilidade e seguran√ßa.



As bibliotecas selecionadas s√£o os pilares do projeto: o **Pandas** e o **NumPy** cuidam da estrutura das tabelas e c√°lculos matem√°ticos, enquanto a biblioteca **Requests** permite que o c√≥digo se comunique com servi√ßos externos para buscar informa√ß√µes meteorol√≥gicas em tempo real.

```python
import requests
import pandas as pd
import numpy as np
import time
import os

# Inicializa√ß√£o e Setup do Ambiente

Nesta fase inicial, preparamos o ambiente de desenvolvimento. Realizamos a importa√ß√£o das bibliotecas fundamentais para manipula√ß√£o de dados (Pandas, NumPy) e estabelecemos a conex√£o com o Google Drive. Esta etapa √© crucial para garantir que os grandes volumes de dados (VRA e bases meteorol√≥gicas) possam ser lidos evitando a perda de progresso caso a sess√£o do Colab seja reiniciada.

In [69]:
import requests
import pandas as pd
import numpy as np
import time
import calendar
import os

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
path = '/content/drive/MyDrive/Hackathon - ONE/Data Science/Bases de dados/Dados ANAC/dados_anac_com_coordenadas.csv'

In [7]:
df = pd.read_csv(path, low_memory=False)

# Segmenta√ß√£o de Dados por Per√≠odos Mensais

Trabalhar com milh√µes de registros de voos exige uma estrat√©gia de organiza√ß√£o eficiente. Para facilitar o processamento e evitar o consumo excessivo de mem√≥ria, o sistema utiliza uma t√©cnica de fragmenta√ß√£o de dados chamada "Chunking". O c√≥digo divide a base principal em blocos menores, organizados m√™s a m√™s (ex: Janeiro de 2023, Fevereiro de 2023).

Esta divis√£o √© fundamental para o enriquecimento meteorol√≥gico, pois permite que o algoritmo processe uma janela de tempo espec√≠fica por vez, tornando a comunica√ß√£o com as APIs de clima muito mais r√°pida e organizada.



## L√≥gica de Agrupamento Temporal

O processo come√ßa convertendo as datas de decolagem em objetos de tempo compreens√≠veis pelo Python. Em seguida, o sistema cria uma "etiqueta" para cada voo com base no seu ano e m√™s. Com essas etiquetas, todos os voos de um mesmo per√≠odo s√£o agrupados em um dicion√°rio, que funciona como uma estante organizada onde cada gaveta cont√©m os dados de um m√™s espec√≠fico.

Essa estrutura permite que o c√≥digo acesse instantaneamente qualquer per√≠odo do hist√≥rico sem precisar percorrer toda a base de dados novamente, economizando tempo de processamento.

In [8]:
def separar_blocos_mensais(df):
    """
    Divide o DataFrame VRA em um dicion√°rio de blocos mensais.
    Ex: blocos['2023-01'] conter√° todos os voos de Janeiro de 2023.
    """
    # 1. Garantir que a coluna de data √© do tipo datetime
    df['dt_partida_prevista'] = pd.to_datetime(df['dt_partida_prevista'])

    # 2. Criar uma coluna tempor√°ria de Per√≠odo (Ano-M√™s)
    df['periodo'] = df['dt_partida_prevista'].dt.to_period('M')

    # 3. Criar o dicion√°rio de blocos
    blocos = {str(periodo): grupo.copy() for periodo, grupo in df.groupby('periodo')}

    # 4. Remover a coluna tempor√°ria do DF original (opcional)
    df.drop(columns=['periodo'], inplace=True)

    return blocos

# --- Aplica√ß√£o ---
# Supondo que seu DF se chame df_vra
# blocos_vra = separar_blocos_mensais(df_vra)
blocos_vra = separar_blocos_mensais(df)

# Verificando os blocos criados:
# print(f"Blocos identificados: {list(blocos_vra.keys())}")
# print(f"Exemplo - Jan 2023 tem {len(blocos_vra['2023-01'])} voos.")

In [9]:
blocos_vra = separar_blocos_mensais(df)
blocos_vra.keys()

dict_keys(['2023-01', '2023-02', '2023-03', '2023-04', '2023-05', '2023-06', '2023-07', '2023-08', '2023-09', '2023-10', '2023-11', '2023-12', '2024-01', '2024-02', '2024-03', '2024-04', '2024-05', '2024-06', '2024-07', '2024-08', '2024-09', '2024-10', '2024-11', '2024-12', '2025-01', '2025-02', '2025-03', '2025-04', '2025-05', '2025-06', '2025-07', '2025-08', '2025-09', '2025-10'])

## Buscando os dados de isd para identifica√ß√£o das esta√ß√µes e seus respectivos ICAO associados

# Mapeamento Global de Esta√ß√µes Meteorol√≥gicas (Dicion√°rio Tradutor)

Para que o projeto consiga baixar o clima de cada aeroporto, precisamos de um "tradutor". Isso ocorre porque a ANAC identifica os aeroportos por c√≥digos chamados **ICAO** (como SBGR para Guarulhos), enquanto a base de dados da NOAA utiliza um identificador num√©rico pr√≥prio (formado pela combina√ß√£o dos c√≥digos USAF e WBAN).

O c√≥digo abaixo baixa o invent√°rio oficial de todas as esta√ß√µes meteorol√≥gicas do mundo e cria uma ponte entre esses dois sistemas. √â como criar uma agenda de contatos onde o nome √© o aeroporto e o n√∫mero de telefone √© o ID necess√°rio para buscar os dados clim√°ticos.



## Cria√ß√£o do Mapa de Busca R√°pida

O processo filtra milhares de esta√ß√µes globais para manter apenas aquelas vinculadas a aeroportos oficiais. Ao final, o sistema gera um dicion√°rio de busca r√°pida (hash map). Essa estrutura √© vital para a performance do projeto: sempre que o c√≥digo encontrar um voo, ele consultar√° esse "tradutor" instantaneamente para saber de qual endere√ßo na internet deve baixar as informa√ß√µes de vento, chuva e temperatura.

Dessa forma, garantimos que cada decolagem brasileira seja vinculada √† esta√ß√£o meteorol√≥gica correta, permitindo um enriquecimento de dados preciso e escal√°vel.


In [68]:
def baixar_e_configurar_tradutor():
    """
    Baixa o invent√°rio de esta√ß√µes da NOAA e cria um mapa de busca.
    """
    url_inventario = "https://www.ncei.noaa.gov/pub/data/noaa/isd-history.csv"
    print(">>> Baixando invent√°rio oficial da NOAA (isd-history.csv)...")

    # Baixamos o arquivo (aprox. 5MB)
    df_inventario = pd.read_csv(url_inventario, dtype={'USAF': str, 'WBAN': str})

    # Criamos o ID √∫nico que a NOAA usa nas URLs de download
    # O formato √© USAF + WBAN (ex: 837790 + 99999)
    df_inventario['ID_NOAA'] = df_inventario['USAF'] + df_inventario['WBAN']

    # Removemos quem n√£o tem ICAO (pois n√£o conseguiremos associar ao VRA)
    df_tradutor = df_inventario.dropna(subset=['ICAO'])
    print()
    print('=='*60)

    display(df_tradutor.head())

    print('=='*60)
    print()
    # Criamos o dicion√°rio de busca r√°pida
    mapa_tradutor = df_tradutor.set_index('ICAO')['ID_NOAA'].to_dict()

    print(f">>> Sucesso! {len(mapa_tradutor)} aeroportos mapeados globalmente.")
    return mapa_tradutor

# Execu√ß√£o
mapa_estacoes = baixar_e_configurar_tradutor()

# Teste r√°pido:
print(f"ID de Guarulhos (SBGR): {mapa_estacoes.get('SBGR')}")
print(f"ID de Congonhas (SBSP): {mapa_estacoes.get('SBSP')}")

>>> Baixando invent√°rio oficial da NOAA (isd-history.csv)...



Unnamed: 0,USAF,WBAN,STATION NAME,CTRY,STATE,ICAO,LAT,LON,ELEV(M),BEGIN,END,ID_NOAA
10,10000,99999,BOGUS NORWAY,NO,,ENRS,,,,20010927,20041019,1000099999
11,10010,99999,JAN MAYEN(NOR-NAVY),NO,,ENJA,70.933,-8.667,9.0,19310101,20250824,1001099999
13,10014,99999,SORSTOKKEN / STORD,NO,,ENSO,59.792,5.341,48.8,19861120,20250824,1001499999
16,10017,99999,FRIGG,NO,,ENFR,59.98,2.25,48.0,19880320,19971226,1001799999
19,10040,99999,NY-ALESUND II,NO,,ENAS,78.917,11.933,8.0,19730101,19970801,1004099999



>>> Sucesso! 8224 aeroportos mapeados globalmente.
ID de Guarulhos (SBGR): 83075099999
ID de Congonhas (SBSP): 83780099999


# Processamento e Extra√ß√£o de Dados Clim√°ticos (NOAA)

Nesta etapa, conectamos nossa base de voos aos dados meteorol√≥gicos mundiais da **NOAA (National Oceanic and Atmospheric Administration)**. O objetivo √© transformar registros clim√°ticos brutos e complexos em informa√ß√µes √∫teis para o nosso modelo, como temperatura, vento e visibilidade.

O c√≥digo realiza uma "tradu√ß√£o" t√©cnica: ele l√™ arquivos onde os dados est√£o compactados em strings e os converte para unidades de medida padr√£o (como Celsius e Km/h). Al√©m disso, ele aplica uma l√≥gica inteligente de tempo para garantir que cada voo receba as informa√ß√µes clim√°ticas exatas do momento da decolagem, com uma margem de seguran√ßa de at√© uma hora.



## L√≥gica de Convers√£o e Categoriza√ß√£o

O c√≥digo trata cada vari√°vel clim√°tica com regras espec√≠ficas, garantindo que falhas de sensores (valores ausentes) n√£o quebrem o processamento. Para a visibilidade e o teto de nuvens, por exemplo, o sistema assume condi√ß√µes de "c√©u limpo" caso n√£o haja um registro de restri√ß√£o, mantendo a integridade estat√≠stica da base.

No final do processo, o clima √© classificado automaticamente entre **Good**, **Moderate**, **Severe** ou **Critical**, baseando-se em limites t√©cnicos de chuva e vento que impactam diretamente a seguran√ßa e a pontualidade dos voos.

**C√≥digo de exemplo:**
```python
# Exemplo da l√≥gica de convers√£o para temperatura e vento
df_st['temp_c'] = df_st['TMP'].apply(lambda x: float(str(x).split(',')[0])/10)
df_st['vento_kmh'] = df_st['WND'].apply(lambda x: float(str(x).split(',')[3])/10 * 3.6)

Colunas da base de dados clim√°ticos do NOAA

In [18]:
base_url = "https://www.ncei.noaa.gov/data/global-hourly/access/2023/83075099999.csv"
df_clima = pd.read_csv(base_url, low_memory=False)
df_clima.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9229 entries, 0 to 9228
Data columns (total 30 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   STATION          9229 non-null   int64  
 1   DATE             9229 non-null   object 
 2   SOURCE           9229 non-null   int64  
 3   LATITUDE         9229 non-null   float64
 4   LONGITUDE        9229 non-null   float64
 5   ELEVATION        9229 non-null   float64
 6   NAME             9229 non-null   object 
 7   REPORT_TYPE      9229 non-null   object 
 8   CALL_SIGN        9229 non-null   int64  
 9   QUALITY_CONTROL  9229 non-null   object 
 10  WND              9229 non-null   object 
 11  CIG              9229 non-null   object 
 12  VIS              9229 non-null   object 
 13  TMP              9229 non-null   object 
 14  DEW              9229 non-null   object 
 15  SLP              9229 non-null   object 
 16  ED1              150 non-null    object 
 17  GA1           

In [48]:
def processar_clima_vra(df_bloco, ano_bloco, mapa_estacoes):
    base_url = "https://www.ncei.noaa.gov/data/global-hourly/access/"
    climas_validados = []

    for icao in df_bloco['sg_icao_origem'].unique():
        id_noaa = mapa_estacoes.get(icao)
        if not id_noaa: continue

        try:
            url = f"{base_url}/{ano_bloco}/{id_noaa}.csv"
            df_st = pd.read_csv(url, low_memory=False)
            df_st['DATE'] = pd.to_datetime(df_st['DATE'])

            # PARSER DE DADOS CRUS (L√≥gica de divis√£o por 10 conforme documenta√ß√£o NOAA)
            df_st['temp_c'] = df_st['TMP'].apply(lambda x: float(str(x).split(',')[0])/10 if pd.notna(x) and str(x).split(',')[0] != "+9999" else np.nan)
            df_st['dew_c'] = df_st['DEW'].apply(lambda x: float(str(x).split(',')[0])/10 if pd.notna(x) and str(x).split(',')[0] != "+9999" else np.nan)
            df_st['vento_kmh'] = df_st['WND'].apply(lambda x: float(str(x).split(',')[3])/10 * 3.6 if pd.notna(x) and str(x).split(',')[3] != "9999" else 0)

            # VISIBILIDADE (Metros): Valores acima de 16000 s√£o considerados visibilidade ilimitada
            df_st['vis_m'] = df_st['VIS'].apply(lambda x: float(str(x).split(',')[0]) if pd.notna(x) and str(x).split(',')[0] != "999999" else 10000)

            # TETO DE NUVENS (Ceiling - em metros): 22000 significa c√©u limpo
            df_st['teto_m'] = df_st['CIG'].apply(lambda x: float(str(x).split(',')[0]) if pd.notna(x) and str(x).split(',')[0] != "99999" else 22000)

            # CHUVA (Precipita√ß√£o em mm)
            df_st['chuva_mm'] = df_st['AA1'].apply(lambda x: float(str(x).split(',')[1])/10 if pd.notna(x) else 0.0) if 'AA1' in df_st.columns else 0.0

            # CATEGORIZA√á√ÉO (Mantida para compatibilidade, mas agora usa os novos nomes)
            def categorizar(r):
                if r['chuva_mm'] > 5: return 'critical'
                if r['chuva_mm'] > 0: return 'Moderate'
                if r['vento_kmh'] > 35: return 'Severe'
                if (not pd.isna(r['dew_c'])) and (r['temp_c'] - r['dew_c']) < 2 and r['vis_m'] < 1000: return 'Moderate'
                return 'Good'

            df_st['st_clima_viagem'] = df_st.apply(categorizar, axis=1)
            df_st['sg_icao_origem'] = icao

            # Guardamos os dados crus + a categoria
            climas_validados.append(df_st[['DATE', 'sg_icao_origem', 'st_clima_viagem',
                                           'temp_c', 'dew_c', 'vento_kmh', 'vis_m', 'teto_m', 'chuva_mm']])

        except Exception as e:
            if "404" not in str(e): print(f"‚ö†Ô∏è Erro em {icao}: {e}")
            continue

    df_bloco = df_bloco.sort_values('dt_partida_prevista')

    if climas_validados:
        df_c = pd.concat(climas_validados).sort_values('DATE')
        df_final = pd.merge_asof(df_bloco, df_c,
                                 left_on='dt_partida_prevista', right_on='DATE',
                                 by='sg_icao_origem', direction='nearest',
                                 tolerance=pd.Timedelta('1h'))
    else:
        df_final = df_bloco.copy()
        for col in ['temp_c', 'dew_c', 'vento_kmh', 'vis_m', 'teto_m', 'chuva_mm']: df_final[col] = np.nan

    return df_final

## Executando o processamento dos dados de clima do NOAA com o ANAC VRA

In [49]:
# 1. Garantir que as vari√°veis de controle est√£o limpas
blocos_enriquecidos = {}
aeroportos_sem_dados = set()

print(f"üöÄ Iniciando processamento de {len(blocos_vra)} blocos mensais (2023-2025)...")

for periodo, df_mes in blocos_vra.items():
    # Extrai o ano da chave '2023-01', '2024-05', etc.
    ano_atual = int(periodo.split('-')[0])

    print(f"\nüì¶ Processando: {periodo} | {len(df_mes):,} voos")

    try:
        # Chamada da fun√ß√£o com o mapa que j√° cont√©m os vizinhos (fallback geospacial)
        df_processado = processar_clima_vra(df_mes, ano_atual, mapa_estacoes)

        # Guardamos o resultado no dicion√°rio
        blocos_enriquecidos[periodo] = df_processado

        # Identificamos quem n√£o teve correspond√™ncia de clima (NaN)
        # Isso gera a lista final para a camada 3 (Open-Meteo)
        sem_clima = df_processado[df_processado['st_clima_viagem'].isna()]
        if not sem_clima.empty:
            falhas = sem_clima['sg_icao_origem'].unique()
            aeroportos_sem_dados.update(falhas)
            print(f"‚ö†Ô∏è  {len(falhas)} aeroportos sem dados f√≠sicos neste m√™s.")
        else:
            print(f"‚úÖ Todos os voos deste m√™s foram enriquecidos com sucesso!")

    except Exception as e:
        print(f"‚ùå Erro cr√≠tico no bloco {periodo}: {e}")

# --- RELAT√ìRIO DE FINALIZA√á√ÉO ---
print("\n" + "="*40)
print(f"üèÅ PROCESSAMENTO CONCLU√çDO!")
print(f"üìä Aeroportos aguardando Rean√°lise (Camada 3): {len(aeroportos_sem_dados)}")
print(f"üìã Lista de Investiga√ß√£o: {sorted(list(aeroportos_sem_dados))}")
print("="*40)

# Opcional: Juntar tudo em um √∫nico DataFrame (Cuidado com a RAM no Colab)
# df_final_total

üöÄ Iniciando processamento de 34 blocos mensais (2023-2025)...

üì¶ Processando: 2023-01 | 67,331 voos
‚ö†Ô∏è  105 aeroportos sem dados f√≠sicos neste m√™s.

üì¶ Processando: 2023-02 | 56,532 voos
‚ö†Ô∏è  102 aeroportos sem dados f√≠sicos neste m√™s.

üì¶ Processando: 2023-03 | 64,111 voos
‚ö†Ô∏è  140 aeroportos sem dados f√≠sicos neste m√™s.

üì¶ Processando: 2023-04 | 60,410 voos
‚ö†Ô∏è  105 aeroportos sem dados f√≠sicos neste m√™s.

üì¶ Processando: 2023-05 | 64,644 voos
‚ö†Ô∏è  122 aeroportos sem dados f√≠sicos neste m√™s.

üì¶ Processando: 2023-06 | 61,488 voos
‚ö†Ô∏è  132 aeroportos sem dados f√≠sicos neste m√™s.

üì¶ Processando: 2023-07 | 67,788 voos
‚ö†Ô∏è  105 aeroportos sem dados f√≠sicos neste m√™s.

üì¶ Processando: 2023-08 | 66,106 voos
‚ö†Ô∏è  124 aeroportos sem dados f√≠sicos neste m√™s.

üì¶ Processando: 2023-09 | 62,153 voos
‚ö†Ô∏è  147 aeroportos sem dados f√≠sicos neste m√™s.

üì¶ Processando: 2023-10 | 61,971 voos
‚ö†Ô∏è  121 aeroportos sem dados f√≠sic

In [76]:
# S√≥ execute este c√≥digo ap√≥s a conclus√£o total do loop de processamento
print(f"üì¶ Iniciando a uni√£o de {len(blocos_enriquecidos)} blocos mensais...")

# 1. pd.concat extrai os DataFrames do dicion√°rio e os empilha
# .values() ignora as chaves ('2023-01', etc) e foca apenas nos dados
df_final_total = pd.concat(blocos_enriquecidos.values(), ignore_index=True)

# 2. Verifica√ß√£o de integridade p√≥s-uni√£o
print(f"‚úÖ Consolida√ß√£o conclu√≠da com sucesso!")
print(f"üìä Volumetria final: {len(df_final_total):,} voos")
print(f"üîç Colunas enriquecidas: {['st_clima_viagem', 'vento', 'DATE'] in list(df_final_total.columns)}")

# Exibe as primeiras e √∫ltimas linhas para conferir a cronologia
display(df_final_total.head(3))
display(df_final_total.tail(3))

NameError: name 'blocos_enriquecidos' is not defined

In [134]:
df_final_total['st_clima_viagem'].value_counts()

Unnamed: 0_level_0,count
st_clima_viagem,Unnamed: 1_level_1
Good,1788347
critical,32351
Moderate,23077
Severe,7815


In [119]:
df_final_total.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2155010 entries, 0 to 2155009
Data columns (total 33 columns):
 #   Column                 Dtype         
---  ------                 -----         
 0   sg_empresa_icao        object        
 1   nm_empresa             object        
 2   nr_voo                 object        
 3   cd_di                  object        
 4   cd_tipo_linha          object        
 5   sg_equipamento_icao    object        
 6   nr_assentos_ofertados  int64         
 7   sg_icao_origem         object        
 8   nm_aerodromo_origem    object        
 9   dt_partida_prevista    datetime64[ns]
 10  dt_partida_real        object        
 11  sg_icao_destino        object        
 12  nm_aerodromo_destino   object        
 13  dt_chegada_prevista    object        
 14  dt_chegada_real        object        
 15  ds_situacao_voo        object        
 16  dt_referencia          object        
 17  ds_situacao_partida    object        
 18  ds_situacao_chegada   

## Salvando os dados processados do NOAA com ANAC VRA

In [133]:
path = '/content/drive/MyDrive/Dados_ANAC/df_com_climas_faltantes.csv'
df_final_total.to_csv(path, index=False)

Contando os dados faltantes (*nulos*) para aplicar um segundo processamento para preenchimento dos dados

In [123]:
# Isolar apenas as linhas com falha para processamento r√°pido
df_falhas = df_final_total[df_final_total['st_clima_viagem'].isna()].copy()
print(f"üõ†Ô∏è  Focando em {len(df_falhas):,} linhas problem√°ticas...")

üõ†Ô∏è  Focando em 303,420 linhas problem√°ticas...


In [74]:
path = '/content/drive/MyDrive/Dados_ANAC/df_com_climas_faltantes.csv'
df_final_total = pd.read_csv(path, low_memory=False)

## Enriquecimento com Dados Meteorol√≥gicos


O clima √© um dos principais fatores de atraso. Nesta fase, o c√≥digo faz o papel de um "pesquisador autom√°tico": para cada voo, ele consulta a API Open-Meteo para descobrir se estava chovendo, se havia neblina ou ventos fortes na hora prevista para a partida.

Em vez de perguntar voo por voo (o que demoraria dias), o c√≥digo agrupa os voos por aeroporto e m√™s. Ele faz uma √∫nica pergunta para a API e distribui as respostas para todos os voos daquele per√≠odo. Isso torna o processo milhares de vezes mais r√°pido e eficiente.


In [72]:
def resgate_clima_padronizado(df_total, df_coords):
    # 1. Prepara√ß√£o: Garantir que as colunas alvo existam
    cols_fisicas = ['teto_m', 'chuva_mm', 'vento_kmh']
    for col in cols_fisicas:
        df_total[col] = pd.to_numeric(df_total.get(col, np.nan), errors='coerce')

    # Garantir que st_clima_viagem pode receber n√∫meros
    df_total['st_clima_viagem'] = df_total.get('st_clima_viagem', np.nan)

    # 2. Normaliza√ß√£o da data
    df_total['dt_partida_prevista'] = pd.to_datetime(df_total['dt_partida_prevista']).dt.tz_localize(None)

    # 3. Identificar o que falta (onde clima √© nulo)
    mask_nulos = df_total['st_clima_viagem'].isna()
    df_nulos = df_total[mask_nulos].copy()
    df_nulos['mes_ano'] = df_nulos['dt_partida_prevista'].dt.to_period('M')

    jobs = df_nulos.groupby(['sg_icao_origem', 'mes_ano']).size().reset_index()
    print(f"üöÄ Iniciando resgate direto para {len(jobs)} blocos...")

    for i, job in jobs.iterrows():
        icao, periodo = job['sg_icao_origem'], job['mes_ano']
        try:
            row_c = df_coords[df_coords['sg_icao_origem'] == icao].iloc[0]

            url = (f"https://archive-api.open-meteo.com/v1/archive?latitude={row_c['lat_origem']}&longitude={row_c['long_origem']}&"
                   f"start_date={periodo.to_timestamp().strftime('%Y-%m-%d')}&"
                   f"end_date={periodo.to_timestamp(how='E').strftime('%Y-%m-%d')}&"
                   f"hourly=precipitation,wind_speed_10m,weather_code,cloud_cover&timezone=America%2FSao_Paulo")

            res = requests.get(url, timeout=20).json()
            if 'hourly' not in res: continue

            h = res['hourly']
            df_api = pd.DataFrame({
                'time_api': pd.to_datetime(h['time']).tz_localize(None),
                'chuva': h.get('precipitation', 0),
                'vento': h.get('wind_speed_10m', 0),
                'w': h.get('weather_code', 0),
                'cloud': h.get('cloud_cover', 0)
            }).sort_values('time_api')

            mask = (df_total['sg_icao_origem'] == icao) & (df_total['dt_partida_prevista'].dt.to_period('M') == periodo)
            df_sub = df_total[mask].sort_values('dt_partida_prevista')

            resgate = pd.merge_asof(df_sub, df_api, left_on='dt_partida_prevista', right_on='time_api',
                                    direction='nearest', tolerance=pd.Timedelta('1h'))

            # INJE√á√ÉO DOS C√ìDIGOS DIRETAMENTE NA COLUNA DE CLIMA
            df_total.loc[df_sub.index, 'st_clima_viagem'] = resgate['w'].values
            df_total.loc[df_sub.index, 'teto_m'] = [((100 - cc) * 100) if cc < 100 else 100 for cc in resgate['cloud'].values]
            df_total.loc[df_sub.index, 'chuva_mm'] = resgate['chuva'].values
            df_total.loc[df_sub.index, 'vento_kmh'] = resgate['vento'].values

            if (i+1) % 20 == 0: print(f"‚úÖ Bloco {i+1} conclu√≠do...")
            time.sleep(0.02)

        except Exception: continue

    return df_total

Aqui definimos todos os aeroportos √∫nicos da base e suas coordenadas (*latitude e longitude*) em um DataFrame de coordenadas √∫nicas para usarmos em conjunto com a fun√ß√£o

In [12]:
# Gerando o df_coords a partir dos seus pr√≥prios dados
df_coord_unica = df_final_total[['sg_icao_origem', 'lat_origem', 'long_origem']].drop_duplicates('sg_icao_origem')

# Verificando se ele est√° correto
print(f"üìç Dicion√°rio de coordenadas gerado para {len(df_coord_unica)} aeroportos.")
display(df_coord_unica.head())

üìç Dicion√°rio de coordenadas gerado para 181 aeroportos.


Unnamed: 0,sg_icao_origem,lat_origem,long_origem
0,SBFZ,-3.775833,-38.532222
1,SBBE,-1.379279,-48.476207
3,SBRF,-8.125984,-34.923316
4,SBSG,-5.769804,-35.366578
5,SBSL,-2.58536,-44.2341


# Tradu√ß√£o e Categoriza√ß√£o do Clima (Mapeador WMO)

Para que o modelo de Intelig√™ncia Artificial entenda o impacto do clima nos voos, precisamos transformar c√≥digos num√©ricos complexos em categorias claras de severidade. Esta etapa atua como um "filtro inteligente" que l√™ os c√≥digos internacionais da Organiza√ß√£o Meteorol√≥gica Mundial (WMO) e os agrupa em quatro n√≠veis operacionais: **Good**, **Moderate**, **Severe** e **Critical**.

A fun√ß√£o √© projetada para ser resiliente: ela lida automaticamente com dados nulos, corrige varia√ß√µes de texto e converte n√∫meros decimais. Isso garante que, independentemente de como a informa√ß√£o chegue da API, o resultado final seja sempre padronizado e limpo para a an√°lise de dados.

## N√≠veis de Severidade Operacional

A classifica√ß√£o segue crit√©rios t√©cnicos baseados no impacto potencial para a aeronavega√ß√£o:

* **Critical:** Reservado para condi√ß√µes extremas como tempestades severas e granizo, que representam alto risco operacional.
* **Severe:** Inclui fen√¥menos como neve intensa, chuvas violentas ou congelantes que exigem aten√ß√£o especial da tripula√ß√£o.
* **Moderate:** Abrange situa√ß√µes de visibilidade reduzida por neblina, chuvas moderadas ou garoa cont√≠nua.
* **Good:** Define condi√ß√µes de c√©u limpo ou apenas nublado, onde n√£o h√° registro de precipita√ß√£o que afete a seguran√ßa do voo.

Esta padroniza√ß√£o √© o que permite ao algoritmo identificar rapidamente padr√µes entre o clima e a pontualidade, transformando dados meteorol√≥gicos brutos em conhecimento estrat√©gico.


In [51]:
def mapear_wmo_doc_openmeteo(code):
    """
    Mapeia os c√≥digos WMO para categorias, lidando com dados h√≠bridos (Texto e N√∫mero).
    """
    # 1. Se for nulo, assume 'Good'
    if pd.isna(code):
        return 'Good'

    # 2. Se j√° for uma string (j√° mapeado anteriormente), retorna o pr√≥prio valor
    # Mas aproveitamos para padronizar a capitaliza√ß√£o
    if isinstance(code, str):
        if code.lower() == 'critical': return 'Critical'
        if code.lower() == 'severe': return 'Severe'
        if code.lower() == 'moderate': return 'Moderate'
        if code.lower() == 'good': return 'Good'
        return code # Retorna como est√° se for outra string

    # 3. Se chegou aqui, tenta converter para inteiro
    try:
        code = int(float(code)) # float primeiro caso venha como '1.0'
    except (ValueError, TypeError):
        return 'Good' # Caso seja algo bizarro, retorna o padr√£o seguro

    # 4. Regras de Categoria (Identicas √† sua documenta√ß√£o)

    # Critical: Tempestades e granizo (Extremos)
    if code in [95, 96, 99, 82]:
        return 'Critical'

    # Severe: Neve, gr√£os de neve e chuvas violentas/congelantes
    if code in [71, 73, 75, 77, 85, 86, 66, 67, 56, 57, 81]:
        return 'Severe'

    # Moderate: Chuva, Garoa, Neblina (Visibilidade reduzida)
    if code in [45, 48, 51, 53, 55, 61, 63, 65, 80]:
        return 'Moderate'

    # Good: C√©u limpo ou nublado (Sem precipita√ß√£o ativa)
    return 'Good'

## Documenta√ß√£o de Refer√™ncia - WMO Weather Codes

A API Open-Meteo utiliza o sistema **WMO Weather Interpretation Codes (WW)**, uma padroniza√ß√£o num√©rica internacional (0-99) que representa 28 condi√ß√µes meteorol√≥gicas distintas. Este sistema fornece metadados claros para mapear c√≥digos brutos para descri√ß√µes simplificadas, facilitando a interpreta√ß√£o de fen√¥menos complexos. No projeto **FlightOnTime**, esses c√≥digos s√£o a espinha dorsal da nossa an√°lise clim√°tica, permitindo classificar desde um c√©u limpo at√© tempestades severas com granizo.



### Tabela de Refer√™ncia de C√≥digos (WW):

* **C√©u e Visibilidade:**
    * **0:** Clear sky.
    * **1, 2, 3:** Mainly clear, Partly cloudy, Cloudy.
    * **45, 48:** Fog, Freezing Fog.
* **Precipita√ß√£o Leve (Drizzle/Freezing):**
    * **51, 53, 55:** Drizzle (light, moderate, dense).
    * **56, 57:** Freezing Drizzle (light, dense).
* **Chuva e Neve (Rain/Snow):**
    * **61, 63, 65:** Rain (slight, moderate, heavy).
    * **66, 67:** Freezing Rain (light, heavy).
    * **71, 73, 75:** Snow (slight, moderate, heavy).
    * **77:** Snow Grains.
* **Pancadas e Tempestades (Showers/Thunderstorm):**
    * **80, 81, 82:** Rain Showers (slight, moderate, violent).
    * **85, 86:** Snow Showers (slight, heavy).
    * **95:** Thunderstorm (slight/moderate).
    * **96, 99:** Hail (slight/heavy), Hailstorm (heavy).


---


No ministeste aleat√≥rio abaixo, ap√≥s alguns testes percebi que as 3 colunas: (***temp_c, dew_c e vis_m***) n√£o tinham valores retornados apenas *`None`*, os quais n√£o continuariam como nulos e n√£o h√° como definirmos um preenchimento a estes dados n√£o existentes, por isso houve a necessidade de deletar as 3 colunas desnecess√°rias para o nosso futuro modelo, que poderia ter problemas com a requisi√ß√£o destes vallores

In [75]:
df_final_total = df_final_total.drop(columns=['temp_c', 'dew_c', 'vis_m'])

KeyError: "['temp_c', 'dew_c'] not found in axis"

### **LOG DOS TESTES PARA AS COLUNAS `temp_c, dew_c e vis_m`**:


#### **LOG DO `vis_m`**

üî¨ Iniciando Miniteste Aleat√≥rio em: ['SBVC' 'SSKW' 'SBGV' 'SSUM' 'SBSP']

‚úàÔ∏è Total de voos na amostra: 486

- - -

Durante a fase de miniteste, realizamos uma auditoria detalhada para verificar a disponibilidade dos dados retornados pela API. O objetivo foi garantir que o modelo seja treinado apenas com informa√ß√µes reais e √≠ntegras, evitando o uso de vari√°veis com alto √≠ndice de aus√™ncia que poderiam comprometer a performance do algoritmo.



## Relat√≥rio de Auditoria por Aeroporto

Os resultados demonstraram que, embora a API confirme o recebimento das chaves de dados, o par√¢metro de visibilidade (`vis_m`) retornou nulo para 100% da amostra testada, incluindo aeroportos de grande movimenta√ß√£o como Congonhas (SBSP). Em contrapartida, as demais vari√°veis foram resgatadas com sucesso absoluto.

| Aeroporto (ICAO) | Visibilidade (Nulos) | Teto (Nulos) | Chuva (Nulos) | C√≥digo WMO (Nulos) |
| :--- | :--- | :--- | :--- | :--- |
| **SBGV** | 73 | 0 | 0 | 0 |
| **SBSP** | 267 | 0 | 0 | 0 |
| **SBVC** | 130 | 0 | 0 | 0 |
| **SSKW** | 9 | 0 | 0 | 0 |
| **SSUM** | 7 | 0 | 0 | 0 |

---

## Conclus√£o T√©cnica e Plano de A√ß√£o

O log de depura√ß√£o confirmou que a API Open-Meteo, em sua base hist√≥rica, n√£o possui registros de visibilidade para as coordenadas brasileiras no per√≠odo analisado. Como o nosso compromisso √© com a integridade dos dados e a rejei√ß√£o de suposi√ß√µes ou preenchimentos artificiais ("dados mentirosos"), a decis√£o t√©cnica foi a **dele√ß√£o definitiva da coluna `vis_m`**.

Esta a√ß√£o garante que o modelo RandomForest foque nas vari√°veis f√≠sicas confirmadas (Vento, Chuva, Teto e Weather Code), mantendo a base de dados robusta e fiel √†s observa√ß√µes meteorol√≥gicas reais.

**Relat√≥rio Geral da Amostra:**

| Vari√°vel | Total de Nulos | Status |
| :--- | :--- | :--- |
| **st_clima_viagem** | 0 | ‚úÖ √çntegro |
| **vis_m** | 486 | ‚ùå Descartada |
| **teto_m** | 0 | ‚úÖ √çntegro |
| **chuva_mm** | 0 | ‚úÖ √çntegro |
| **vento_kmh** | 0 | ‚úÖ √çntegro |

#### Otimiza√ß√£o de Atributos: Exclus√£o de `temp_c` e `dew_c`

Durante o refinamento do dataset, foi tomada a decis√£o t√©cnica de remover as colunas de Temperatura (`temp_c`) e Ponto de Orvalho (`dew_c`). Esta a√ß√£o faz parte da estrat√©gia de "Feature Selection", onde focamos em reduzir a complexidade do modelo (dimensionalidade) mantendo apenas as vari√°veis que possuem correla√ß√£o direta com os atrasos a√©reos.



#### Justifica√ß√£o T√©cnica e Impacto no Modelo

A an√°lise de integridade revelou que estas vari√°veis, embora interessantes do ponto de vista meteorol√≥gico, apresentavam comportamentos que justificaram a sua exclus√£o:

| Vari√°vel | Motivo da Exclus√£o | Impacto |
| :--- | :--- | :--- |
| **temp_c** | Baixa vari√¢ncia explicativa para atrasos diretos e redund√¢ncia com o teto de nuvens. | Redu√ß√£o de ru√≠do no RandomForest. |
| **dew_c** | Elevado √≠ndice de inconsist√™ncia em esta√ß√µes regionais e depend√™ncia da temperatura. | Maior estabilidade estat√≠stica da base. |

---

#### Conclus√£o e Foco no Weather Code (WMO)

Ao migrar para a Camada 3 de enriquecimento (Open-Meteo), opt√°mos por utilizar o **Weather Code (WMO)** como a nossa vari√°vel mestra de "estado do tempo". O c√≥digo WMO j√° sintetiza a intera√ß√£o entre temperatura, humidade e press√£o para definir fen√≥menos como nevoeiro ou tempestades.

Desta forma, ao excluir as colunas de temperatura e ponto de orvalho, eliminamos dados redundantes e permitimos que o modelo foque no que realmente importa: a severidade clim√°tica consolidada (`st_clima_viagem`), resultando num algoritmo mais r√°pido, leve e preciso.

| Atributo Descartado | Atributo Substituto | Vantagem |
| :--- | :--- | :--- |
| **temp_c / dew_c** | **st_clima_viagem** | Interpreta√ß√£o sem√¢ntica da severidade clim√°tica. |

# Miniteste Aleat√≥rio e Valida√ß√£o de Fluxo (Camada de Resgate)

Antes de submeter a base completa ao processamento massivo, aplicamos uma estrat√©gia de "Miniteste". O objetivo √© validar o funcionamento da fun√ß√£o de resgate em amostras pequenas e aleat√≥rias de voos que n√£o foram completados pela NOAA. Esta etapa √© fundamental para filtrar erros, validar a comunica√ß√£o com a API e aplicar planos de a√ß√£o r√°pidos, evitando o desperd√≠cio de tempo com processamentos longos que poderiam falhar no meio do caminho.

Esta auditoria funciona como um controle de qualidade: selecionamos aleatoriamente 5 blocos de aeroportos e meses distintos para garantir que o sistema de enriquecimento de dados seja resiliente a diferentes cen√°rios geogr√°ficos e temporais.



## Auditoria de Integridade e Mapeamento

O script identifica automaticamente os registros nulos na coluna de clima e realiza o sorteio da amostra. Ap√≥s a execu√ß√£o do resgate, o sistema gera um relat√≥rio de integridade detalhado por aeroporto, verificando se vari√°veis cr√≠ticas como teto de nuvens e chuva foram preenchidas corretamente.

Somente ap√≥s a valida√ß√£o bem-sucedida deste fluxo ‚Äî incluindo a transforma√ß√£o final de c√≥digos num√©ricos para categorias textuais ‚Äî √© que o projeto avan√ßa para a execu√ß√£o na base principal. Isso garante que 100% da "fia√ß√£o" do c√≥digo esteja correta, assegurando um enriquecimento de dados √≠ntegro e confi√°vel para o modelo de Intelig√™ncia Artificial.

**C√≥digo de exemplo:**
```python
# Realizando o sorteio aleat√≥rio de blocos para teste de integridade
amostra_jobs = df_nulos_disponiveis.groupby(['sg_icao_origem', 'mes_ano']).size().reset_index().sample(5)

# Executando a auditoria por aeroporto ap√≥s o resgate
auditoria = df_teste_resultado[['sg_icao_origem', 'teto_m', 'chuva_mm', 'st_clima_viagem']].groupby('sg_icao_origem').apply(lambda x: x.isna().sum())

In [44]:
# --- 1. PREPARA√á√ÉO E TIPAGEM ---
df_final_total['dt_partida_prevista'] = pd.to_datetime(df_final_total['dt_partida_prevista'])

# AGORA BUSCAMOS NULOS NA PR√ìPRIA COLUNA DE CLIMA
mask_nulos = df_final_total['st_clima_viagem'].isna()
df_nulos_disponiveis = df_final_total[mask_nulos].copy()

if len(df_nulos_disponiveis) == 0:
    print("üö® N√£o h√° voos com 'st_clima_viagem' nulo para testar!")
else:
    # Geramos o per√≠odo para o agrupamento
    df_nulos_disponiveis['mes_ano'] = df_nulos_disponiveis['dt_partida_prevista'].dt.to_period('M')

    # --- 2. SORTEIO ALEAT√ìRIO ---
    amostra_jobs = df_nulos_disponiveis.groupby(['sg_icao_origem', 'mes_ano']).size().reset_index().sample(5)

    lista_test = []
    for _, row in amostra_jobs.iterrows():
        temp = df_final_total[
            (df_final_total['sg_icao_origem'] == row['sg_icao_origem']) &
            (df_final_total['dt_partida_prevista'].dt.to_period('M') == row['mes_ano']) &
            (df_final_total['st_clima_viagem'].isna())
        ]
        lista_test.append(temp)

    df_teste = pd.concat(lista_test).copy()
    icao_testados = df_teste['sg_icao_origem'].unique()

    print(f"üî¨ Iniciando Miniteste Aleat√≥rio em: {icao_testados}")
    print(f"‚úàÔ∏è Total de voos na amostra: {len(df_teste)}")

    # --- 3. EXECU√á√ÉO DO RESGATE ---
    # A fun√ß√£o agora injeta os n√∫meros diretamente no st_clima_viagem
    df_teste_resultado = resgate_clima_padronizado(df_teste, df_coord_unica)

    # --- 4. RELAT√ìRIO DE INTEGRIDADE POR AEROPORTO ---
    print("\n--- üìä AUDITORIA POR AEROPORTO (Dados Reais) ---")
    auditoria = df_teste_resultado[['sg_icao_origem', 'teto_m', 'chuva_mm', 'st_clima_viagem']].groupby('sg_icao_origem').apply(lambda x: x.isna().sum(), include_groups=False)
    print(auditoria)

    # --- 5. MAPEAMENTO FINAL ---
    # Transformamos os n√∫meros que o resgate trouxe em texto (Good, Moderate...)
    df_teste_resultado['st_clima_viagem'] = df_teste_resultado['st_clima_viagem'].apply(mapear_wmo_doc_openmeteo)

    print("\n--- üèÅ RELAT√ìRIO GERAL DO TESTE ---")
    cols_v = ['st_clima_viagem', 'teto_m', 'chuva_mm', 'vento_kmh']
    total_nulos = df_teste_resultado[cols_v].isna().sum()
    print(total_nulos)

    # L√≥gica de aprova√ß√£o: Se st_clima_viagem n√£o tem nulos, a fia√ß√£o est√° 100%
    if total_nulos['st_clima_viagem'] == 0:
        print("\n‚úÖ O TESTE DEU CERTO! Fluxo completo validado.")
        print("Pode seguir para a execu√ß√£o na base principal.")
        print("\nCategorias geradas na amostra:")
        print(df_teste_resultado['st_clima_viagem'].value_counts())
    else:
        print("\n‚ùå O TESTE FALHOU. Algumas colunas ainda possuem nulos.")

üî¨ Iniciando Miniteste Aleat√≥rio em: ['SSGY' 'SBMY' 'SWEI' 'SBCJ' 'SNRU']
‚úàÔ∏è Total de voos na amostra: 130
üöÄ Iniciando resgate direto para 5 blocos...

--- üìä AUDITORIA POR AEROPORTO (Dados Reais) ---
                teto_m  chuva_mm  st_clima_viagem
sg_icao_origem                                   
SBCJ                 0         0                0
SBMY                 0         0                0
SNRU                 0         0                0
SSGY                 0         0                0
SWEI                 0         0                0

--- üèÅ RELAT√ìRIO GERAL DO TESTE ---
st_clima_viagem    0
teto_m             0
chuva_mm           0
vento_kmh          0
dtype: int64

‚úÖ O TESTE DEU CERTO! Fluxo completo validado.
Pode seguir para a execu√ß√£o na base principal.

Categorias geradas na amostra:
st_clima_viagem
Good        113
Moderate     17
Name: count, dtype: int64


## Iniciando a execu√ß√£o do processamento

In [57]:
# 1. REMO√á√ÉO DE COLUNAS DESNECESS√ÅRIAS (Limpeza de Ambiente)
if 'vis_m' in df_final_total.columns:
    df_final_total = df_final_total.drop(columns=['vis_m'])
    print("üßπ Coluna 'vis_m' removida para garantir a integridade da base.")

# 2. EXECU√á√ÉO DO RESGATE MASSIVO
# A fun√ß√£o buscar√° apenas os registros onde 'st_clima_viagem' √© NaN
start_time = time.time()

df_final_total = resgate_clima_padronizado(df_final_total, df_coord_unica)

end_time = time.time()
print(f"\n‚úÖ Resgate conclu√≠do em {((end_time - start_time)/60):.2f} minutos.")

# 3. MAPEAMENTO CATEG√ìRICO FINAL
print("üîÑ Convertendo c√≥digos num√©ricos em categorias clim√°ticas...")
df_final_total['st_clima_viagem'] = df_final_total['st_clima_viagem'].apply(mapear_wmo_doc_openmeteo)

# 4. AUDITORIA FINAL DE NULOS
print("\n--- üìä RELAT√ìRIO FINAL DE INTEGRIDADE ---")
cols_finais = ['st_clima_viagem', 'teto_m', 'chuva_mm', 'vento_kmh']
relatorio_nulos = df_final_total[cols_finais].isna().sum()
print(relatorio_nulos)

# 5. EXPORTA√á√ÉO DO DATASET PRONTO PARA ML
if relatorio_nulos.sum() == 0:
    print("\nüèÜ SUCESSO ABSOLUTO: Base 100% preenchida e √≠ntegra!")
    df_final_total.to_csv('dataset_flightontime_final.csv', index=False)
    print("üíæ Arquivo 'dataset_flightontime_final.csv' salvo com sucesso.")
else:
    print("\n‚ö†Ô∏è Aten√ß√£o: Ainda restam nulos. Verifique se h√° aeroportos sem coordenadas.")

üöÄ Iniciando resgate direto para 0 blocos...

‚úÖ Resgate conclu√≠do em 0.01 minutos.
üîÑ Convertendo c√≥digos num√©ricos em categorias clim√°ticas...

--- üìä RELAT√ìRIO FINAL DE INTEGRIDADE ---
st_clima_viagem    0
teto_m             0
chuva_mm           0
vento_kmh          0
dtype: int64

üèÜ SUCESSO ABSOLUTO: Base 100% preenchida e √≠ntegra!
üíæ Arquivo 'dataset_flightontime_final.csv' salvo com sucesso.


In [46]:
df_final_total.isnull().sum()

Unnamed: 0,0
sg_empresa_icao,0
nm_empresa,0
nr_voo,0
cd_di,0
cd_tipo_linha,0
sg_equipamento_icao,0
nr_assentos_ofertados,0
sg_icao_origem,0
nm_aerodromo_origem,0
dt_partida_prevista,0


Rodamos a fun√ß√£o denovo at√© preenchermos todos os dados, que a API clim√°tica n√£o conseguiu extrair na primeira tentativa

In [47]:
df_final_total = resgate_clima_padronizado(df_final_total, df_coord_unica)

üöÄ Iniciando resgate direto para 14 blocos...


In [49]:
df_final_total.isnull().sum()

Unnamed: 0,0
sg_empresa_icao,0
nm_empresa,0
nr_voo,0
cd_di,0
cd_tipo_linha,0
sg_equipamento_icao,0
nr_assentos_ofertados,0
sg_icao_origem,0
nm_aerodromo_origem,0
dt_partida_prevista,0


In [50]:
df_final_total.drop(columns=['DATE'], inplace=True)

In [73]:
df_final_total['st_clima_viagem'].value_counts()

Unnamed: 0_level_0,count
st_clima_viagem,Unnamed: 1_level_1
Good,1820938
Moderate,317212
Critical,13674
Severe,3186


# Salvando os dados completos

In [53]:
df_final_total

Unnamed: 0,sg_empresa_icao,nm_empresa,nr_voo,cd_di,cd_tipo_linha,sg_equipamento_icao,nr_assentos_ofertados,sg_icao_origem,nm_aerodromo_origem,dt_partida_prevista,...,lat_origem,long_origem,sg_iata_destino,lat_destino,long_destino,periodo,st_clima_viagem,vento_kmh,teto_m,chuva_mm
0,TAM,TAM LINHAS A√âREAS S.A.,3794,0,N,A321,224,SBFZ,PINTO MARTINS - FORTALEZA - CE - BRASIL,2023-01-01 00:45:00,...,-3.775833,-38.532222,SLZ,-2.585360,-44.234100,2023-01,Good,16.56,22000.0,0.0
1,TAM,TAM LINHAS A√âREAS S.A.,3213,0,N,A321,224,SBBE,INTERNACIONAL DE BEL√âM/VAL DE CANS/J√öLIO CEZAR...,2023-01-01 01:20:00,...,-1.379279,-48.476207,GRU,-23.431944,-46.467778,2023-01,Good,7.56,22000.0,0.0
2,TAM,TAM LINHAS A√âREAS S.A.,3313,0,N,A320,180,SBFZ,PINTO MARTINS - FORTALEZA - CE - BRASIL,2023-01-01 01:40:00,...,-3.775833,-38.532222,GRU,-23.431944,-46.467778,2023-01,Good,16.56,22000.0,0.0
3,TAM,TAM LINHAS A√âREAS S.A.,3445,0,N,A320,180,SBRF,GUARARAPES - GILBERTO FREYRE - RECIFE - PE - B...,2023-01-01 02:30:00,...,-8.125984,-34.923316,GRU,-23.431944,-46.467778,2023-01,Good,7.56,914.0,0.0
4,TAM,TAM LINHAS A√âREAS S.A.,3379,0,N,A320,180,SBSG,GOVERNADOR ALUIZIO ALVES - S√ÉO GON√áALO DO AMAR...,2023-01-01 02:35:00,...,-5.769804,-35.366578,GRU,-23.431944,-46.467778,2023-01,Good,9.10,100.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2155005,AZU,AZUL LINHAS A√âREAS BRASILEIRAS S/A,4256,0,N,E295,136,SBCF,TANCREDO NEVES - CONFINS - MG - BRASIL,2025-10-31 23:50:00,...,-19.635710,-43.966928,CGB,-15.652900,-56.116699,2025-10,Moderate,10.60,100.0,1.0
2155006,TAM,TAM LINHAS A√âREAS S.A.,3840,0,N,A319,144,SBBR,PRESIDENTE JUSCELINO KUBITSCHEK - BRAS√çLIA - D...,2025-10-31 23:50:00,...,-15.869167,-47.920834,STM,-2.422423,-54.793060,2025-10,Good,6.50,100.0,0.0
2155007,TAM,TAM LINHAS A√âREAS S.A.,3566,0,N,A320,180,SBGR,GUARULHOS - GOVERNADOR ANDR√â FRANCO MONTORO - ...,2025-10-31 23:50:00,...,-23.431944,-46.467778,CGB,-15.652900,-56.116699,2025-10,Good,7.80,8200.0,0.0
2155008,AZU,AZUL LINHAS A√âREAS BRASILEIRAS S/A,4408,0,N,A20N,174,SBCF,TANCREDO NEVES - CONFINS - MG - BRASIL,2025-10-31 23:55:00,...,-19.635710,-43.966928,PMW,-10.291500,-48.356998,2025-10,Moderate,10.60,100.0,1.0


In [54]:
path = '/content/drive/MyDrive/Hackathon - ONE/Data Science/Bases de dados/Dados ANAC/dados_anac_coord_clima.csv'

In [55]:
df_final_total.to_csv(path, index=False)