## Funções fixas

In [40]:
import math

def haversine(lat1, lon1, lat2, lon2):
    # Raio da Terra em km
    R = 6371.0
    
    # Converter de graus para radianos
    lat1 = math.radians(lat1)
    lon1 = math.radians(lon1)
    lat2 = math.radians(lat2)
    lon2 = math.radians(lon2)
    
    # Diferença de coordenadas
    dlat = lat2 - lat1
    dlon = lon2 - lon1
    
    # Fórmula de Haversine
    a = math.sin(dlat / 2)**2 + math.cos(lat1) * math.cos(lat2) * math.sin(dlon / 2)**2
    c = 2 * math.asin(math.sqrt(a))
    
    # Distância
    distance = R * c
    return distance


In [41]:
def dms_para_dd(graus, minutos, segundos, direcao):
    # Converter para graus decimais
    decimal = graus + (minutos / 60) + (segundos / 3600)
    
    # Ajustar o sinal para Sul e Oeste
    if direcao in ['S', 'W']:
        decimal = -decimal
    
    return decimal


In [42]:
import re

def converter_coordenada(coordenada):
    # Expressão regular para extrair os valores de graus, minutos, segundos e direção
    match = re.match(r"(\d+)° (\d+)' (\d+)'' (\w)", coordenada)
    
    if match:
        graus = int(match.group(1))
        minutos = int(match.group(2))
        segundos = int(match.group(3))
        direcao = match.group(4)

        # Chamar a função de conversão
        return dms_para_dd(graus, minutos, segundos, direcao)
    else:
        return None  # Caso a string não corresponda ao formato esperado

In [69]:
import random

def gerar_assentos_ocupados(assentos_totais):
    percentual_ocupacao = random.uniform(0.5, 0.95)  # Escolhe um percentual entre 50% e 95%
    return int(assentos_totais * percentual_ocupacao)

## Importação das bases

In [43]:
import pandas as pd

df_aeroportos = pd.read_excel('bases/aeroportos.xls', date_format='utf-8', skiprows=2)


In [44]:
df_empresas = pd.read_excel('bases/empresas_aereas.xls', date_format='utf-8', skiprows=3)

df_empresas = df_empresas.drop(columns=["Unnamed: 0", "Unnamed: 3"])


In [45]:
df_voos = pd.read_csv('bases/VRA_20240916110513.csv', sep=";")


  df_voos = pd.read_csv('bases/VRA_20240916110513.csv', sep=";")


In [46]:
df_reclamacoes2022 = pd.read_csv('bases/reclamacoes/dadosconsumidor2022.csv', sep=";", skiprows=1)

df_reclamacoes2023 = pd.read_csv('bases/reclamacoes/dadosconsumidor2023.csv', sep=";", skiprows=1)

In [47]:
df_reclamacoes = pd.concat([df_reclamacoes2022,df_reclamacoes2023], ignore_index=True)


## Exploração das tabelas e visualização das colunas

In [48]:
print(df_aeroportos.dtypes)


CÓDIGO OACI                                                                                         object
CIAD                                                                                                object
NOME                                                                                                object
MUNICÍPIO ATENDIDO                                                                                  object
UF                                                                                                  object
LATITUDE                                                                                            object
LONGITUDE                                                                                           object
ALTITUDE                                                                                            object
OPERAÇÃO                                                                                            object
DESIGNAÇÃO                           

In [49]:
print(df_empresas.dtypes)

Sigla OACI                 object
Nome Empresas              object
Nacional ou Estrangeira    object
dtype: object


In [50]:
print(df_reclamacoes.dtypes)

Gestor                             object
Região                             object
UF                                 object
Cidade                             object
Ano Abertura                        int64
Mês Abertura                        int64
Data Abertura                      object
Data e Hora Resposta               object
Data e Hora Análise                object
Data e Hora Recusa                 object
Data Finalização                   object
Prazo Resposta                     object
Prazo Análise Gestor (em dias)    float64
Tempo Resposta (em dias)          float64
Nome Fantasia                      object
Área                               object
Assunto                            object
Grupo Problema                     object
Problema                           object
Forma Contrato                     object
Procurou Empresa                   object
Respondida                         object
Situação                           object
Avaliação Reclamação              

In [51]:
print(df_voos.dtypes)

Sigla ICAO Empresa Aérea         object
Empresa Aérea                    object
Número Voo                       object
Código DI                        object
Código Tipo Linha                object
Modelo Equipamento               object
Número de Assentos                int64
Sigla ICAO Aeroporto Origem      object
Descrição Aeroporto Origem       object
Partida Prevista                 object
Partida Real                     object
Sigla ICAO Aeroporto Destino     object
Descrição Aeroporto Destino      object
Chegada Prevista                 object
Chegada Real                     object
Situação Voo                     object
Justificativa                   float64
Referência                       object
Situação Partida                 object
Situação Chegada                 object
dtype: object


In [52]:
df_voos.head(5)

Unnamed: 0,Sigla ICAO Empresa Aérea,Empresa Aérea,Número Voo,Código DI,Código Tipo Linha,Modelo Equipamento,Número de Assentos,Sigla ICAO Aeroporto Origem,Descrição Aeroporto Origem,Partida Prevista,Partida Real,Sigla ICAO Aeroporto Destino,Descrição Aeroporto Destino,Chegada Prevista,Chegada Real,Situação Voo,Justificativa,Referência,Situação Partida,Situação Chegada
0,1ED,SERVICIOS AÉREOS PANAMERICANOS LTDA. SARPA S.A.S,5330,7,I,E145,50,SKLT,ALFREDO VÁSQUEZ COBO INTERNATIONAL AIRPORT - L...,27/08/2023 18:10,27/08/2023 19:00,SLVR,VIRU VIRU INTERNATIONAL AIRPORT - SANTA CRUZ -...,27/08/2023 21:00,27/08/2023 21:50,REALIZADO,,27/08/2023 00:00:00,Atraso 30-60,Atraso 30-60
1,1ED,SERVICIOS AÉREOS PANAMERICANOS LTDA. SARPA S.A.S,5330,7,X,E145,50,SBCY,MARECHAL RONDON - VÁRZEA GRANDE - MT - BRASIL,,31/08/2023 07:07,SBEG,EDUARDO GOMES - MANAUS - AM - BRASIL,,31/08/2023 09:19,REALIZADO,,27/08/2023 00:00:00,,
2,1ED,SERVICIOS AÉREOS PANAMERICANOS LTDA. SARPA S.A.S,5330,7,X,E145,50,SBEG,EDUARDO GOMES - MANAUS - AM - BRASIL,,31/08/2023 10:50,SKPE,MATECAÑA INTERNATIONAL AIRPORT - PEREIRA - COL...,,31/08/2023 13:36,REALIZADO,,27/08/2023 00:00:00,,
3,1ED,SERVICIOS AÉREOS PANAMERICANOS LTDA. SARPA S.A.S,5330,7,X,E145,50,SBGR,GUARULHOS - GOVERNADOR ANDRÉ FRANCO MONTORO - ...,,31/08/2023 02:15,SBCY,MARECHAL RONDON - VÁRZEA GRANDE - MT - BRASIL,,31/08/2023 04:55,REALIZADO,,27/08/2023 00:00:00,,
4,1ED,SERVICIOS AÉREOS PANAMERICANOS LTDA. SARPA S.A.S,5330,7,I,E145,50,SLVR,VIRU VIRU INTERNATIONAL AIRPORT - SANTA CRUZ -...,27/08/2023 22:00,27/08/2023 22:54,SBGR,GUARULHOS - GOVERNADOR ANDRÉ FRANCO MONTORO - ...,28/08/2023 00:55,28/08/2023 01:23,REALIZADO,,27/08/2023 00:00:00,Atraso 30-60,Pontual


## Selecionando apenas as colunas necessárias

In [53]:
df_voos_selected = df_voos[['Sigla ICAO Empresa Aérea', 'Empresa Aérea', 'Número Voo',
                            'Número de Assentos', 'Sigla ICAO Aeroporto Origem',
                            'Partida Prevista', 'Partida Real', 'Sigla ICAO Aeroporto Destino',
                            'Chegada Prevista','Chegada Real', 'Situação Voo']]

In [54]:
df_aeroportos_selected =  df_aeroportos[['CÓDIGO OACI', 'CIAD', 'NOME', 'LATITUDE', 'LONGITUDE']]

### Filtrando voos domésticos

In [55]:
# Realizando o merge para aeroportos de origem
df_voos_brasil_origem = pd.merge(df_voos_selected, df_aeroportos_selected,
                                 left_on='Sigla ICAO Aeroporto Origem', right_on='CÓDIGO OACI',
                                 how='inner')

# Realizando o merge para aeroportos de destino
df_voos_brasil_destino = pd.merge(df_voos_brasil_origem, df_aeroportos_selected,
                                  left_on='Sigla ICAO Aeroporto Destino', right_on='CÓDIGO OACI',
                                  how='inner',
                                  suffixes=('_origem', '_destino'))

# Selecionando apenas os voos domésticos (com origem e destino no Brasil)
df_voos_domesticos = df_voos_brasil_destino[['Sigla ICAO Empresa Aérea', 'Empresa Aérea', 'Número Voo',
                                             'Número de Assentos', 'Sigla ICAO Aeroporto Origem',
                                             'Partida Prevista', 'Partida Real', 'Sigla ICAO Aeroporto Destino',
                                             'Chegada Prevista', 'Chegada Real', 'Situação Voo', 'NOME_origem', 
                                             'NOME_destino', 'LATITUDE_origem', 'LONGITUDE_origem',
                                             'LATITUDE_destino', 'LONGITUDE_destino']]

# Mostrando o resultado
df_voos_domesticos.head(5)

Unnamed: 0,Sigla ICAO Empresa Aérea,Empresa Aérea,Número Voo,Número de Assentos,Sigla ICAO Aeroporto Origem,Partida Prevista,Partida Real,Sigla ICAO Aeroporto Destino,Chegada Prevista,Chegada Real,Situação Voo,NOME_origem,NOME_destino,LATITUDE_origem,LONGITUDE_origem,LATITUDE_destino,LONGITUDE_destino
0,1ED,SERVICIOS AÉREOS PANAMERICANOS LTDA. SARPA S.A.S,5330,50,SBCY,,31/08/2023 07:07,SBEG,,31/08/2023 09:19,REALIZADO,MARECHAL RONDON,EDUARDO GOMES,15° 39' 0'' S,56° 7' 3'' W,3° 2' 28'' S,60° 3' 2'' W
1,1ED,SERVICIOS AÉREOS PANAMERICANOS LTDA. SARPA S.A.S,5330,50,SBGR,,31/08/2023 02:15,SBCY,,31/08/2023 04:55,REALIZADO,GUARULHOS - GOVERNADOR ANDRÉ FRANCO MONTORO,MARECHAL RONDON,23° 26' 8'' S,46° 28' 23'' W,15° 39' 0'' S,56° 7' 3'' W
2,1ED,SERVICIOS AÉREOS PANAMERICANOS LTDA. SARPA S.A.S,5330,50,SBGR,31/08/2023 02:15,,SBCY,31/08/2023 04:40,,CANCELADO,GUARULHOS - GOVERNADOR ANDRÉ FRANCO MONTORO,MARECHAL RONDON,23° 26' 8'' S,46° 28' 23'' W,15° 39' 0'' S,56° 7' 3'' W
3,1ED,SERVICIOS AÉREOS PANAMERICANOS LTDA. SARPA S.A.S,5330,50,SBCY,31/08/2023 05:40,,SBEG,31/08/2023 08:15,,CANCELADO,MARECHAL RONDON,EDUARDO GOMES,15° 39' 0'' S,56° 7' 3'' W,3° 2' 28'' S,60° 3' 2'' W
4,AAL,"AMERICAN AIRLINES, INC.",963,285,SBGL,,21/06/2023 09:05,SBGR,,21/06/2023 10:26,REALIZADO,AEROPORTO INTERNACIONAL DO RIO DE JANEIRO/GALE...,GUARULHOS - GOVERNADOR ANDRÉ FRANCO MONTORO,22° 48' 36'' S,43° 15' 2'' W,23° 26' 8'' S,46° 28' 23'' W


### Tratando as colunas de latitude e longitude

In [60]:
df_voos_domesticos = df_voos_domesticos.assign(
    LATITUDE_origem_decimal=df_voos_domesticos['LATITUDE_origem'].apply(converter_coordenada),
    LATITUDE_destino_decimal=df_voos_domesticos['LATITUDE_destino'].apply(converter_coordenada),
    LONGITUDE_origem_decimal=df_voos_domesticos['LONGITUDE_origem'].apply(converter_coordenada),
    LONGITUDE_destino_decimal=df_voos_domesticos['LONGITUDE_destino'].apply(converter_coordenada)
)

df_voos_domesticos = df_voos_domesticos.drop(['LATITUDE_origem', 'LATITUDE_destino', 'LONGITUDE_origem', 'LONGITUDE_destino'], axis=1)

In [62]:
df_voos_domesticos = df_voos_domesticos.rename(columns={'LATITUDE_origem_decimal': 'lat_origem',
                        'LONGITUDE_origem_decimal': 'lon_origem',
                        'LATITUDE_destino_decimal': 'lat_destino',
                        'LONGITUDE_destino_decimal': 'lon_destino'})

### Calculando a distância entre os aeroportos de origem e destino

In [64]:
df_voos_domesticos['distancia'] = df_voos_domesticos.apply(lambda row: haversine(row['lat_origem'], row['lon_origem'], row['lat_destino'], row['lon_destino']), axis=1)

df_voos_domesticos.head(5)

Unnamed: 0,Sigla ICAO Empresa Aérea,Empresa Aérea,Número Voo,Número de Assentos,Sigla ICAO Aeroporto Origem,Partida Prevista,Partida Real,Sigla ICAO Aeroporto Destino,Chegada Prevista,Chegada Real,Situação Voo,NOME_origem,NOME_destino,lat_origem,lat_destino,lon_origem,lon_destino,distancia
0,1ED,SERVICIOS AÉREOS PANAMERICANOS LTDA. SARPA S.A.S,5330,50,SBCY,,31/08/2023 07:07,SBEG,,31/08/2023 09:19,REALIZADO,MARECHAL RONDON,EDUARDO GOMES,-15.65,-3.041111,-56.1175,-60.050556,1466.673883
1,1ED,SERVICIOS AÉREOS PANAMERICANOS LTDA. SARPA S.A.S,5330,50,SBGR,,31/08/2023 02:15,SBCY,,31/08/2023 04:55,REALIZADO,GUARULHOS - GOVERNADOR ANDRÉ FRANCO MONTORO,MARECHAL RONDON,-23.435556,-15.65,-46.473056,-56.1175,1329.813082
2,1ED,SERVICIOS AÉREOS PANAMERICANOS LTDA. SARPA S.A.S,5330,50,SBGR,31/08/2023 02:15,,SBCY,31/08/2023 04:40,,CANCELADO,GUARULHOS - GOVERNADOR ANDRÉ FRANCO MONTORO,MARECHAL RONDON,-23.435556,-15.65,-46.473056,-56.1175,1329.813082
3,1ED,SERVICIOS AÉREOS PANAMERICANOS LTDA. SARPA S.A.S,5330,50,SBCY,31/08/2023 05:40,,SBEG,31/08/2023 08:15,,CANCELADO,MARECHAL RONDON,EDUARDO GOMES,-15.65,-3.041111,-56.1175,-60.050556,1466.673883
4,AAL,"AMERICAN AIRLINES, INC.",963,285,SBGL,,21/06/2023 09:05,SBGR,,21/06/2023 10:26,REALIZADO,AEROPORTO INTERNACIONAL DO RIO DE JANEIRO/GALE...,GUARULHOS - GOVERNADOR ANDRÉ FRANCO MONTORO,-22.81,-23.435556,-43.250556,-46.473056,336.791839


### Adicionando coluna do numero de assentos ocupados gerados de forma randomica

In [68]:
df_voos_domesticos.dtypes

Sigla ICAO Empresa Aérea         object
Empresa Aérea                    object
Número Voo                       object
Número de Assentos                int64
Sigla ICAO Aeroporto Origem      object
Partida Prevista                 object
Partida Real                     object
Sigla ICAO Aeroporto Destino     object
Chegada Prevista                 object
Chegada Real                     object
Situação Voo                     object
NOME_origem                      object
NOME_destino                     object
lat_origem                      float64
lat_destino                     float64
lon_origem                      float64
lon_destino                     float64
distancia                       float64
dtype: object

In [72]:
df_voos_domesticos['assentos_ocupados'] = df_voos_domesticos.apply(lambda row: gerar_assentos_ocupados \
                                                                    (row['Número de Assentos']), axis=1) 

0            Gol Linhas Aéreas
1            Gol Linhas Aéreas
2         Latam Airlines (Tam)
3            Gol Linhas Aéreas
4            Gol Linhas Aéreas
                  ...         
114465    Latam Airlines (Tam)
114466    Latam Airlines (Tam)
114467    Latam Airlines (Tam)
114468       Gol Linhas Aéreas
114469         Delta Air Lines
Name: Nome Fantasia, Length: 114470, dtype: object