# Importing Libraries

In [None]:
!pip install pandas geopy tqdm



In [None]:
import pandas as pd
import numpy as np


# Loading and Concatenating Files
Concatenate 12 CSV files, one for each month of 2024, into a single pandas DataFrame. The files are located in the current directory and are named in a way that indicates the month (e.g., "dados_voos_2024_01.csv", "dados_voos_2024_02.csv", etc.).

## List csv files

### Subtask:
Get a list of all CSV files for the months of 2024.


**Reasoning**:
Import the `glob` module and use it to find all CSV files matching the pattern "dados_voos_2024_*.csv".



In [None]:
import glob

csv_files = glob.glob("dados_voos_2024_*.csv")
print(csv_files)

[]


## List csv files

### Subtask:
Retry: Get a list of all CSV files for the months of 2024.


**Reasoning**:
Use the glob module to find the specified file pattern and store the result in `csv_files`. Then print the list.



In [None]:
import glob

csv_files = glob.glob("janeiro.csv")
print(csv_files)

[]


**Reasoning**:
The previous attempt to find `janeiro.csv` using `glob.glob("janeiro.csv")` returned an empty list, even though a file named `janeiro.csv` was successfully loaded into a dataframe earlier. This indicates there might be an issue with how the glob pattern was specified or the current working directory. I will try again with a more general pattern to see if any CSV files are present.



In [None]:
csv_files = glob.glob("*.csv")
print(csv_files)

['08-agosto.csv', '10-outubro.csv', '06-junho.csv', '11-novembro.csv', '03-março.csv', '01-janeiro.csv', '02-fevereiro.csv', '07-julho.csv', '05-maio.csv', '12-dezembro.csv', '09-setembro.csv', 'ICAO_cidade.csv', '04-abril.csv']


**Reasoning**:
The previous command successfully listed all CSV files in the directory, including the monthly files. Now, filter this list to include only the files that correspond to the 12 months of 2024, based on the naming convention observed in the output.



In [None]:
monthly_csv_files = [f for f in csv_files if f.endswith('.csv') and f[0:2].isdigit() and 1 <= int(f[0:2]) <= 12]
print(monthly_csv_files)

['08-agosto.csv', '10-outubro.csv', '06-junho.csv', '11-novembro.csv', '03-março.csv', '01-janeiro.csv', '02-fevereiro.csv', '07-julho.csv', '05-maio.csv', '12-dezembro.csv', '09-setembro.csv', '04-abril.csv']


## Read and store dataframes

### Subtask:
Read each CSV file into a pandas DataFrame and store them in a list.


**Reasoning**:
Read each monthly CSV file into a DataFrame and store them in a list.



In [None]:
monthly_dataframes = []
for file in monthly_csv_files:
    df_month = pd.read_csv(file, sep=';', skiprows=1)
    monthly_dataframes.append(df_month)

print(f'Number of dataframes in the list: {len(monthly_dataframes)}')

  df_month = pd.read_csv(file, sep=';', skiprows=1)


Number of dataframes in the list: 12


## Concatenate dataframes

### Subtask:
Concatenate all the DataFrames in the list into a single DataFrame.


**Reasoning**:
Concatenate the list of DataFrames into a single DataFrame.



In [None]:
concatenated_df = pd.concat(monthly_dataframes, ignore_index=True)
display(concatenated_df.head())
print(f'\nShape of the concatenated DataFrame (rows, columns): {concatenated_df.shape}')

Unnamed: 0,ICAO Empresa Aérea,Número Voo,Código Autorização (DI),Código Tipo Linha,ICAO Aeródromo Origem,ICAO Aeródromo Destino,Partida Prevista,Partida Real,Chegada Prevista,Chegada Real,Situação Voo,Código Justificativa
0,ABJ,1406,0,N,SBSV,SNCL,2024-08-27 13:00:00,2024-08-27 12:55:00,2024-08-27 13:30:00,2024-08-27 13:23:00,REALIZADO,
1,ABJ,1406,0,N,SBSV,SNCL,2024-08-28 13:00:00,2024-08-28 12:45:00,2024-08-28 13:30:00,2024-08-28 13:09:00,REALIZADO,
2,ABJ,1406,0,N,SBSV,SNCL,2024-08-30 13:00:00,2024-08-30 12:45:00,2024-08-30 13:30:00,2024-08-30 13:07:00,REALIZADO,
3,ABJ,1406,0,N,SBSV,SNCL,2024-08-31 13:00:00,2024-08-31 12:45:00,2024-08-31 13:30:00,2024-08-31 13:10:00,REALIZADO,
4,ABJ,1407,0,N,SBSV,SNCL,2024-08-30 13:00:00,,2024-08-30 13:30:00,,CANCELADO,



Shape of the concatenated DataFrame (rows, columns): (987868, 12)


## Display concatenated dataframe

### Subtask:
Display the head and shape of the concatenated DataFrame to verify the result.


**Reasoning**:
Display the head and shape of the concatenated DataFrame as requested by the subtask.



In [None]:
display(concatenated_df.head())
print(f'\nShape of the concatenated DataFrame (rows, columns): {concatenated_df.shape}')

Unnamed: 0,ICAO Empresa Aérea,Número Voo,Código Autorização (DI),Código Tipo Linha,ICAO Aeródromo Origem,ICAO Aeródromo Destino,Partida Prevista,Partida Real,Chegada Prevista,Chegada Real,Situação Voo,Código Justificativa
0,ABJ,1406,0,N,SBSV,SNCL,2024-08-27 13:00:00,2024-08-27 12:55:00,2024-08-27 13:30:00,2024-08-27 13:23:00,REALIZADO,
1,ABJ,1406,0,N,SBSV,SNCL,2024-08-28 13:00:00,2024-08-28 12:45:00,2024-08-28 13:30:00,2024-08-28 13:09:00,REALIZADO,
2,ABJ,1406,0,N,SBSV,SNCL,2024-08-30 13:00:00,2024-08-30 12:45:00,2024-08-30 13:30:00,2024-08-30 13:07:00,REALIZADO,
3,ABJ,1406,0,N,SBSV,SNCL,2024-08-31 13:00:00,2024-08-31 12:45:00,2024-08-31 13:30:00,2024-08-31 13:10:00,REALIZADO,
4,ABJ,1407,0,N,SBSV,SNCL,2024-08-30 13:00:00,,2024-08-30 13:30:00,,CANCELADO,



Shape of the concatenated DataFrame (rows, columns): (987868, 12)


## Summary:

### Data Analysis Key Findings

*   Initially, the process failed to find the monthly CSV files using a specific file pattern, but a broader search successfully located all CSV files in the directory.
*   A list comprehension was used to filter the located CSV files based on a naming convention (starting with a two-digit month number), successfully identifying the 12 monthly files.
*   Each identified monthly CSV file was successfully read into a pandas DataFrame, and these DataFrames were stored in a list.
*   A `DtypeWarning` was observed during the reading process for column 1, indicating mixed data types.
*   All 12 monthly DataFrames were successfully concatenated into a single pandas DataFrame named `concatenated_df`.
*   The final concatenated DataFrame has 987,868 rows and 12 columns.

### Insights or Next Steps

*   Address the `DtypeWarning` for column 1 by inspecting the data in that column and converting it to a consistent data type if necessary.
*   Proceed with further data cleaning, transformation, and analysis on the `concatenated_df` as required for the overall project.


# Processing Data

In [None]:
#Data frame whith all information

display(concatenated_df.head())
print(f'\nShape of the concatenated DataFrame (rows, columns): {concatenated_df.shape}')

Unnamed: 0,ICAO Empresa Aérea,Número Voo,Código Autorização (DI),Código Tipo Linha,ICAO Aeródromo Origem,ICAO Aeródromo Destino,Partida Prevista,Partida Real,Chegada Prevista,Chegada Real,Situação Voo,Código Justificativa
0,ABJ,1406,0,N,SBSV,SNCL,2024-08-27 13:00:00,2024-08-27 12:55:00,2024-08-27 13:30:00,2024-08-27 13:23:00,REALIZADO,
1,ABJ,1406,0,N,SBSV,SNCL,2024-08-28 13:00:00,2024-08-28 12:45:00,2024-08-28 13:30:00,2024-08-28 13:09:00,REALIZADO,
2,ABJ,1406,0,N,SBSV,SNCL,2024-08-30 13:00:00,2024-08-30 12:45:00,2024-08-30 13:30:00,2024-08-30 13:07:00,REALIZADO,
3,ABJ,1406,0,N,SBSV,SNCL,2024-08-31 13:00:00,2024-08-31 12:45:00,2024-08-31 13:30:00,2024-08-31 13:10:00,REALIZADO,
4,ABJ,1407,0,N,SBSV,SNCL,2024-08-30 13:00:00,,2024-08-30 13:30:00,,CANCELADO,



Shape of the concatenated DataFrame (rows, columns): (987868, 12)


In [None]:
# Dataframe with only selected columns

selected_columns = ['ICAO Empresa Aérea', 'Número Voo', 'Código Tipo Linha', 'ICAO Aeródromo Origem', 'ICAO Aeródromo Destino']

useful_collumns_df = concatenated_df[selected_columns].copy()

display(useful_collumns_df.head())

Unnamed: 0,ICAO Empresa Aérea,Número Voo,Código Tipo Linha,ICAO Aeródromo Origem,ICAO Aeródromo Destino
0,ABJ,1406,N,SBSV,SNCL
1,ABJ,1406,N,SBSV,SNCL
2,ABJ,1406,N,SBSV,SNCL
3,ABJ,1406,N,SBSV,SNCL
4,ABJ,1407,N,SBSV,SNCL


In [None]:
# Dataframe with only national flyghts

voos_nacionais_2025 = useful_collumns_df[useful_collumns_df['Código Tipo Linha'] == 'N'].copy()

display(voos_nacionais_2025.head())
print(f'\nShape of the filtered DataFrame (rows, columns): {voos_nacionais_2025.shape}')

Unnamed: 0,ICAO Empresa Aérea,Número Voo,Código Tipo Linha,ICAO Aeródromo Origem,ICAO Aeródromo Destino
0,ABJ,1406,N,SBSV,SNCL
1,ABJ,1406,N,SBSV,SNCL
2,ABJ,1406,N,SBSV,SNCL
3,ABJ,1406,N,SBSV,SNCL
4,ABJ,1407,N,SBSV,SNCL



Shape of the filtered DataFrame (rows, columns): (796923, 5)


In [None]:
import pandas as pd
from geopy.geocoders import Nominatim
from tqdm import tqdm
import time
import os

def buscar_coordenadas_aeroportos_csv(arquivo_csv, coluna_icao=0, coluna_cidade=1,
                                     nome_arquivo_saida=None, encoding='utf-8'):
    """
    Busca as coordenadas (latitude e longitude) de aeroportos a partir de um arquivo CSV
    e salva os resultados em um novo arquivo CSV.

    Args:
        arquivo_csv (str): Caminho para o arquivo CSV com os dados dos aeroportos.
        coluna_icao (int ou str): Índice ou nome da coluna com os códigos ICAO (padrão: 0).
        coluna_cidade (int ou str): Índice ou nome da coluna com o nome da cidade (padrão: 1).
        nome_arquivo_saida (str, opcional): Nome do arquivo de saída. Se None, usa o nome
                                          original com sufixo '_com_coordenadas'.
        encoding (str): Codificação do arquivo CSV (padrão: 'utf-8').

    Returns:
        pd.DataFrame: O DataFrame com as colunas originais mais 'latitude' e 'longitude'.
    """

    # Verifica se o arquivo existe
    if not os.path.exists(arquivo_csv):
        raise FileNotFoundError(f"O arquivo {arquivo_csv} não foi encontrado.")

    try:
        # Lê o arquivo CSV
        print(f"Lendo o arquivo CSV: {arquivo_csv}")
        df = pd.read_csv(arquivo_csv, encoding=encoding)

        # Se as colunas foram especificadas por índice, converte para nome
        if isinstance(coluna_icao, int):
            nome_coluna_icao = df.columns[coluna_icao]
        else:
            nome_coluna_icao = coluna_icao

        if isinstance(coluna_cidade, int):
            nome_coluna_cidade = df.columns[coluna_cidade]
        else:
            nome_coluna_cidade = coluna_cidade

        print(f"Colunas identificadas: ICAO='{nome_coluna_icao}', Cidade='{nome_coluna_cidade}'")
        print(f"Total de registros: {len(df)}")

    except Exception as e:
        print(f"Erro ao ler o arquivo CSV: {e}")
        return None

    # Inicializa o geocoder
    geolocator = Nominatim(user_agent="busca_coordenadas_aeroportos_csv_1.0")

    # Prepara listas para armazenar as coordenadas
    latitudes = []
    longitudes = []

    print("Iniciando a busca por coordenadas. Isso pode levar um tempo...")

    # Itera sobre cada linha do DataFrame com barra de progresso
    for index, row in tqdm(df.iterrows(), total=df.shape[0], desc="Buscando Coordenadas"):
        icao = row[nome_coluna_icao]
        cidade = row[nome_coluna_cidade]

        # Cria string de busca otimizada
        query = f"{cidade}, Brasil"

        try:
            # Faz a requisição de geolocalização
            location = geolocator.geocode(query, timeout=10)

            if location:
                latitudes.append(location.latitude)
                longitudes.append(location.longitude)
            else:
                # Se não encontrar, tenta busca mais simples
                query_simples = f"{cidade}, Brasil"
                location_simples = geolocator.geocode(query_simples, timeout=10)
                if location_simples:
                    latitudes.append(location_simples.latitude)
                    longitudes.append(location_simples.longitude)
                else:
                    # Última tentativa: só a cidade
                    query_cidade = f"{cidade}, Brasil"
                    location_cidade = geolocator.geocode(query_cidade, timeout=10)
                    if location_cidade:
                        latitudes.append(location_cidade.latitude)
                        longitudes.append(location_cidade.longitude)
                    else:
                        latitudes.append(None)
                        longitudes.append(None)
                        print(f"AVISO: Coordenadas não encontradas para {icao} - {cidade}")

            # Pausa para não sobrecarregar a API
            time.sleep(1)

        except Exception as e:
            print(f"ERRO ao processar {icao} - {cidade}: {e}")
            latitudes.append(None)
            longitudes.append(None)

    # Adiciona as coordenadas como novas colunas
    df['latitude'] = latitudes
    df['longitude'] = longitudes

    # Define nome do arquivo de saída
    if nome_arquivo_saida is None:
        nome_base = os.path.splitext(arquivo_csv)[0]
        nome_arquivo_saida = f"{nome_base}_com_coordenadas.csv"

    # Salva o resultado em novo arquivo CSV
    try:
        df.to_csv(nome_arquivo_saida, index=False, encoding=encoding)
        print(f"\nResultados salvos em: {nome_arquivo_saida}")

        # Mostra estatísticas
        coordenadas_encontradas = df.dropna(subset=['latitude', 'longitude']).shape[0]
        print(f"Coordenadas encontradas: {coordenadas_encontradas}/{len(df)} ({coordenadas_encontradas/len(df)*100:.1f}%)")

    except Exception as e:
        print(f"Erro ao salvar o arquivo: {e}")

    return df

# Exemplo de uso
if __name__ == "__main__":
    # Chama a função com seu arquivo CSV
    arquivo_csv = "ICAO_cidade.csv"  # Substitua pelo caminho do seu arquivo
    df_resultado = buscar_coordenadas_aeroportos_csv(arquivo_csv)

Lendo o arquivo CSV: ICAO_cidade.csv
Colunas identificadas: ICAO='ICAO', Cidade='Cidade'
Total de registros: 945
Iniciando a busca por coordenadas. Isso pode levar um tempo...


Buscando Coordenadas:   6%|▌         | 59/945 [01:23<19:29,  1.32s/it]

AVISO: Coordenadas não encontradas para SBTF - Tefá


Buscando Coordenadas:   7%|▋         | 62/945 [01:29<24:12,  1.64s/it]

AVISO: Coordenadas não encontradas para SBMS - Mossoró (Moçoró)


Buscando Coordenadas:  11%|█▏        | 108/945 [02:34<18:20,  1.31s/it]

AVISO: Coordenadas não encontradas para SBVH - Vilhena (Novo Campo)


Buscando Coordenadas:  14%|█▎        | 129/945 [03:04<17:54,  1.32s/it]

AVISO: Coordenadas não encontradas para SWKU - São Gabriel da Cachoei


Buscando Coordenadas:  19%|█▉        | 181/945 [04:15<16:41,  1.31s/it]

AVISO: Coordenadas não encontradas para SNUH - Piumhir


Buscando Coordenadas:  24%|██▎       | 224/945 [05:14<15:51,  1.32s/it]

AVISO: Coordenadas não encontradas para SBXI - Cachimbo-in-Para


Buscando Coordenadas:  24%|██▍       | 227/945 [05:20<19:03,  1.59s/it]

AVISO: Coordenadas não encontradas para SBGP - Embraer Unidade Gaviao Peixoto (Gaviao Peixoto Embraer)


Buscando Coordenadas:  24%|██▍       | 228/945 [05:24<25:05,  2.10s/it]

AVISO: Coordenadas não encontradas para SBIC - Itacoiatiara


Buscando Coordenadas:  27%|██▋       | 253/945 [05:59<15:21,  1.33s/it]

AVISO: Coordenadas não encontradas para SWTU - Sapeza


Buscando Coordenadas:  27%|██▋       | 255/945 [06:04<19:58,  1.74s/it]

AVISO: Coordenadas não encontradas para SDJO - São Joaquin da Barra


Buscando Coordenadas:  28%|██▊       | 269/945 [06:25<14:49,  1.32s/it]

AVISO: Coordenadas não encontradas para SNOO - Mossoró (Moçoró)


Buscando Coordenadas:  30%|██▉       | 279/945 [06:40<15:28,  1.39s/it]

AVISO: Coordenadas não encontradas para SNOM - Vila Bela da S S Trindade


Buscando Coordenadas:  33%|███▎      | 309/945 [07:22<14:41,  1.39s/it]

AVISO: Coordenadas não encontradas para SSBH - Coxim/F Baia


Buscando Coordenadas:  34%|███▍      | 326/945 [07:47<14:35,  1.41s/it]

AVISO: Coordenadas não encontradas para SWZI - Santo Antonio Ica/S Luzia


Buscando Coordenadas:  36%|███▌      | 338/945 [08:05<13:25,  1.33s/it]

AVISO: Coordenadas não encontradas para SWTI - Vila Bela da S S Trindade


Buscando Coordenadas:  39%|███▊      | 366/945 [08:46<15:31,  1.61s/it]

AVISO: Coordenadas não encontradas para SWZI - Santo Antonio Ica/S Luzia


Buscando Coordenadas:  40%|███▉      | 376/945 [09:02<12:50,  1.35s/it]

AVISO: Coordenadas não encontradas para SWTI - Vila Bela da S S Trindade


Buscando Coordenadas:  60%|█████▉    | 564/945 [13:16<08:45,  1.38s/it]

AVISO: Coordenadas não encontradas para CFO - Confreza


Buscando Coordenadas:  63%|██████▎   | 594/945 [13:57<07:34,  1.29s/it]

AVISO: Coordenadas não encontradas para SNXG - Sapacaia


Buscando Coordenadas:  65%|██████▌   | 616/945 [14:28<07:36,  1.39s/it]

AVISO: Coordenadas não encontradas para SJGP - Condominio Fly In Community


Buscando Coordenadas:  72%|███████▏  | 677/945 [15:51<05:44,  1.29s/it]

AVISO: Coordenadas não encontradas para SWFA - Cristalina/F Pamplona


Buscando Coordenadas:  72%|███████▏  | 684/945 [16:02<05:56,  1.37s/it]

AVISO: Coordenadas não encontradas para SWGD - Goiandra/F Dourados


Buscando Coordenadas:  74%|███████▍  | 698/945 [16:22<05:22,  1.31s/it]

AVISO: Coordenadas não encontradas para SIBY - Monteior


Buscando Coordenadas:  78%|███████▊  | 737/945 [17:17<04:30,  1.30s/it]

AVISO: Coordenadas não encontradas para SIZG - Fazenda Encantado Das Aguas


Buscando Coordenadas:  81%|████████▏ | 770/945 [18:04<04:00,  1.37s/it]

AVISO: Coordenadas não encontradas para SWQI - Caracaraá


Buscando Coordenadas:  82%|████████▏ | 779/945 [18:17<03:42,  1.34s/it]

AVISO: Coordenadas não encontradas para SWIA - Iassiara


Buscando Coordenadas:  83%|████████▎ | 780/945 [18:21<05:14,  1.91s/it]

AVISO: Coordenadas não encontradas para SNQW - Itaituba/Cururu


Buscando Coordenadas:  96%|█████████▌| 905/945 [21:09<00:53,  1.33s/it]

AVISO: Coordenadas não encontradas para SSIC - Dourados/Aplic


Buscando Coordenadas:  96%|█████████▋| 911/945 [21:19<00:47,  1.41s/it]

AVISO: Coordenadas não encontradas para SNFM - Itaituba/Faz MM


Buscando Coordenadas:  97%|█████████▋| 917/945 [21:28<00:39,  1.40s/it]

AVISO: Coordenadas não encontradas para SWAJ - Mucajai/Jaragua


Buscando Coordenadas: 100%|█████████▉| 943/945 [22:06<00:02,  1.43s/it]

AVISO: Coordenadas não encontradas para SBEN - Macae Plataforma SS18


Buscando Coordenadas: 100%|█████████▉| 944/945 [22:09<00:02,  2.03s/it]

AVISO: Coordenadas não encontradas para SBPW - Pindamonhangaba Visaba


Buscando Coordenadas: 100%|██████████| 945/945 [22:12<00:00,  1.41s/it]


Resultados salvos em: ICAO_cidade_com_coordenadas.csv
Coordenadas encontradas: 913/945 (96.6%)





In [None]:
display(df_resultado.head())

Unnamed: 0,ICAO,Cidade,latitude,longitude
0,SBGR,São Paulo,-23.550651,-46.633382
1,SBGL,Rio de Janeiro,-22.911014,-43.209373
2,SBRF,Recife,-8.058493,-34.884819
3,SBEG,Manaus,-3.131633,-59.982504
4,SBBR,Brasília,-10.333333,-53.2


In [None]:
# Adicionar SNCL ao dataframe de aeroportos
nova_linha = {
    df_resultado.columns[0]: 'SNCL',  # código ICAO
    df_resultado.columns[1]: 'Bahia',  # cidade (substitua pelo valor correto)
    df_resultado.columns[2]: -13.3854682,  # substitua pela latitude
    df_resultado.columns[3]: -38.9187099   # substitua pela longitude
}

df_resultado = pd.concat([df_resultado, pd.DataFrame([nova_linha])], ignore_index=True)

In [None]:
# Primeiro merge: adicionar coordenadas do aeroporto de origem
voos_com_origem = voos_nacionais_2025.merge(
    df_resultado[['ICAO', 'latitude', 'longitude']],
    left_on='ICAO Aeródromo Origem',
    right_on='ICAO',
    how='left'
).rename(columns={
    'latitude': 'latitude_origem',
    'longitude': 'longitude_origem'
}).drop('ICAO', axis=1)

# Segundo merge: adicionar coordenadas do aeroporto de destino
voos_completo = voos_com_origem.merge(
    df_resultado[['ICAO', 'latitude', 'longitude']],
    left_on='ICAO Aeródromo Destino',
    right_on='ICAO',
    how='left'
).rename(columns={
    'latitude': 'latitude_destino',
    'longitude': 'longitude_destino'
}).drop('ICAO', axis=1)

display(voos_completo.head())

print(f'\nShape of the filtered DataFrame (rows, columns): {voos_completo.shape}')

Unnamed: 0,ICAO Empresa Aérea,Número Voo,Código Tipo Linha,ICAO Aeródromo Origem,ICAO Aeródromo Destino,latitude_origem,longitude_origem,latitude_destino,longitude_destino
0,ABJ,1406,N,SBSV,SNCL,-12.98225,-38.481277,-13.385468,-38.91871
1,ABJ,1406,N,SBSV,SNCL,-12.98225,-38.481277,-13.385468,-38.91871
2,ABJ,1406,N,SBSV,SNCL,-12.98225,-38.481277,-13.385468,-38.91871
3,ABJ,1406,N,SBSV,SNCL,-12.98225,-38.481277,-13.385468,-38.91871
4,ABJ,1407,N,SBSV,SNCL,-12.98225,-38.481277,-13.385468,-38.91871



Shape of the filtered DataFrame (rows, columns): (797149, 9)


In [None]:
def identificar_aeroportos_faltantes(df_voos, df_aeroportos):
    """
    Identifica aeroportos de origem e destino que não estão na base de aeroportos
    e estão gerando valores NaN nas coordenadas.
    """
    # Obter códigos ICAO disponíveis na base de aeroportos
    codigos_disponíveis = set(df_aeroportos.iloc[:, 0].values)

    # Obter códigos únicos de origem e destino dos voos
    origens = set(df_voos['ICAO Aeródromo Origem'].unique())
    destinos = set(df_voos['ICAO Aeródromo Destino'].unique())

    # Identificar códigos faltantes
    origens_faltantes = origens - codigos_disponíveis
    destinos_faltantes = destinos - codigos_disponíveis
    todos_faltantes = origens_faltantes.union(destinos_faltantes)

    # Contar quantos voos serão afetados
    print("=== AEROPORTOS FALTANTES NA BASE ===\n")

    if origens_faltantes:
        print("AEROPORTOS DE ORIGEM faltantes:")
        for codigo in sorted(origens_faltantes):
            count = df_voos[df_voos['ICAO Aeródromo Origem'] == codigo].shape[0]
            print(f"  {codigo}: {count} voos")
    else:
        print("✓ Todos os aeroportos de ORIGEM estão na base")

    print()

    if destinos_faltantes:
        print("AEROPORTOS DE DESTINO faltantes:")
        for codigo in sorted(destinos_faltantes):
            count = df_voos[df_voos['ICAO Aeródromo Destino'] == codigo].shape[0]
            print(f"  {codigo}: {count} voos")
    else:
        print("✓ Todos os aeroportos de DESTINO estão na base")

    print(f"\nTotal de aeroportos únicos faltantes: {len(todos_faltantes)}")

    return {
        'origens_faltantes': list(origens_faltantes),
        'destinos_faltantes': list(destinos_faltantes),
        'todos_faltantes': list(todos_faltantes)
    }

# Usar a função
aeroportos_faltantes = identificar_aeroportos_faltantes(voos_nacionais_2025, df_resultado)

=== AEROPORTOS FALTANTES NA BASE ===

AEROPORTOS DE ORIGEM faltantes:
  MDPC: 1 voos
  MMUN: 1 voos
  SAAR: 2 voos
  SACO: 1 voos
  SAEZ: 4 voos
  SBAC: 89 voos
  SBAE: 914 voos
  SBBP: 1 voos
  SBCN: 295 voos
  SBDB: 363 voos
  SBJA: 767 voos
  SBJD: 802 voos
  SBJE: 1097 voos
  SBJI: 186 voos
  SBMI: 246 voos
  SBPG: 213 voos
  SBPO: 320 voos
  SBRD: 253 voos
  SBSG: 9145 voos
  SBSI: 1642 voos
  SBSO: 315 voos
  SBTG: 261 voos
  SBUY: 772 voos
  SBVC: 1737 voos
  SBZM: 1611 voos
  SCCF: 1 voos
  SCEL: 1 voos
  SDIY: 101 voos
  SDJV: 3 voos
  SDVZ: 2 voos
  SEGU: 1 voos
  SEMT: 1 voos
  SEQM: 1 voos
  SGAS: 1 voos
  SIFC: 2 voos
  SIRI: 129 voos
  SIUA: 5 voos
  SIXE: 9 voos
  SJZA: 143 voos
  SLVR: 1 voos
  SN6L: 117 voos
  SNBA: 5 voos
  SNEB: 182 voos
  SNJM: 182 voos
  SNSV: 2 voos
  SSBN: 6 voos
  SSGG: 212 voos
  SSKW: 105 voos
  SSOU: 303 voos
  SSQO: 1 voos
  SSRS: 310 voos
  SSVL: 149 voos
  SUMU: 2 voos
  SVMI: 1 voos
  SWBE: 108 voos
  SWKQ: 150 voos
  SYEC: 1 voos

AEROPO

In [None]:
import networkx as nx

# Create a directed graph
G = nx.DiGraph()

# Add nodes from the origin and destination columns with attributes
for index, row in voos_completo.iterrows():
    origin_icao = row['ICAO Aeródromo Origem']
    dest_icao = row['ICAO Aeródromo Destino']

    # Add origin node with attributes if not already present
    if origin_icao not in G:
        G.add_node(origin_icao, latitude=row['latitude_origem'], longitude=row['longitude_origem'])

    # Add destination node with attributes if not already present
    if dest_icao not in G:
        G.add_node(dest_icao, latitude=row['latitude_destino'], longitude=row['longitude_destino'])

    # Add the edge
    G.add_edge(origin_icao, dest_icao)


print(f'Number of nodes: {G.number_of_nodes()}')
print(f'Number of edges: {G.number_of_edges()}')

# You can access node attributes like this:
# print(G.nodes['SBGR']['latitude'])

Number of nodes: 215
Number of edges: 1939


In [None]:
nx.write_gexf(G, "voos_grafo.gexf")
print("Graph exported to voos_grafo.gexf")

Graph exported to voos_grafo.gexf
