## Funções fixas

In [19]:
import math

def haversine(lat1, lon1, lat2, lon2):
    # Raio da Terra em km
    R = 6371.0
    
    # Converter de graus para radianos
    lat1 = math.radians(lat1)
    lon1 = math.radians(lon1)
    lat2 = math.radians(lat2)
    lon2 = math.radians(lon2)
    
    # Diferença de coordenadas
    dlat = lat2 - lat1
    dlon = lon2 - lon1
    
    # Fórmula de Haversine
    a = math.sin(dlat / 2)**2 + math.cos(lat1) * math.cos(lat2) * math.sin(dlon / 2)**2
    c = 2 * math.asin(math.sqrt(a))
    
    # Distância
    distance = R * c
    return distance


In [20]:
def dms_para_dd(graus, minutos, segundos, direcao):
    # Converter para graus decimais
    decimal = graus + (minutos / 60) + (segundos / 3600)
    
    # Ajustar o sinal para Sul e Oeste
    if direcao in ['S', 'W']:
        decimal = -decimal
    
    return decimal


In [21]:
import re

def converter_coordenada(coordenada):
    # Expressão regular para extrair os valores de graus, minutos, segundos e direção
    match = re.match(r"(\d+)° (\d+)' (\d+)'' (\w)", coordenada)
    
    if match:
        graus = int(match.group(1))
        minutos = int(match.group(2))
        segundos = int(match.group(3))
        direcao = match.group(4)

        # Chamar a função de conversão
        return dms_para_dd(graus, minutos, segundos, direcao)
    else:
        return None  # Caso a string não corresponda ao formato esperado

In [22]:
import random

def gerar_assentos_ocupados(assentos_totais):
    percentual_ocupacao = random.uniform(0.5, 0.95)  # Escolhe um percentual entre 50% e 95%
    return int(assentos_totais * percentual_ocupacao)

## Importação das bases

In [23]:
import pandas as pd

df_aeroportos = pd.read_excel('bases/aeroportos.xls', date_format='utf-8', skiprows=2)


In [24]:
df_empresas = pd.read_excel('bases/empresas_aereas.xls', date_format='utf-8', skiprows=3)

df_empresas = df_empresas.drop(columns=["Unnamed: 0", "Unnamed: 3"])


In [25]:
df_voos = pd.read_csv('bases/VRA_20240916110513.csv', sep=";")


  df_voos = pd.read_csv('bases/VRA_20240916110513.csv', sep=";")


In [26]:
df_reclamacoes2022 = pd.read_csv('bases/reclamacoes/dadosconsumidor2022.csv', sep=";", skiprows=1)

df_reclamacoes2023 = pd.read_csv('bases/reclamacoes/dadosconsumidor2023.csv', sep=";", skiprows=1)

In [27]:
df_reclamacoes = pd.concat([df_reclamacoes2022,df_reclamacoes2023], ignore_index=True)


## Exploração das tabelas e visualização das colunas

In [28]:
print(df_aeroportos.dtypes)


CÓDIGO OACI                                                                                         object
CIAD                                                                                                object
NOME                                                                                                object
MUNICÍPIO ATENDIDO                                                                                  object
UF                                                                                                  object
LATITUDE                                                                                            object
LONGITUDE                                                                                           object
ALTITUDE                                                                                            object
OPERAÇÃO                                                                                            object
DESIGNAÇÃO                           

In [29]:
print(df_empresas.dtypes)

Sigla OACI                 object
Nome Empresas              object
Nacional ou Estrangeira    object
dtype: object


In [30]:
print(df_reclamacoes.dtypes)

Gestor                             object
Região                             object
UF                                 object
Cidade                             object
Ano Abertura                        int64
Mês Abertura                        int64
Data Abertura                      object
Data e Hora Resposta               object
Data e Hora Análise                object
Data e Hora Recusa                 object
Data Finalização                   object
Prazo Resposta                     object
Prazo Análise Gestor (em dias)    float64
Tempo Resposta (em dias)          float64
Nome Fantasia                      object
Área                               object
Assunto                            object
Grupo Problema                     object
Problema                           object
Forma Contrato                     object
Procurou Empresa                   object
Respondida                         object
Situação                           object
Avaliação Reclamação              

In [31]:
print(df_voos.dtypes)

Sigla ICAO Empresa Aérea         object
Empresa Aérea                    object
Número Voo                       object
Código DI                        object
Código Tipo Linha                object
Modelo Equipamento               object
Número de Assentos                int64
Sigla ICAO Aeroporto Origem      object
Descrição Aeroporto Origem       object
Partida Prevista                 object
Partida Real                     object
Sigla ICAO Aeroporto Destino     object
Descrição Aeroporto Destino      object
Chegada Prevista                 object
Chegada Real                     object
Situação Voo                     object
Justificativa                   float64
Referência                       object
Situação Partida                 object
Situação Chegada                 object
dtype: object


In [32]:
df_voos.head(5)

Unnamed: 0,Sigla ICAO Empresa Aérea,Empresa Aérea,Número Voo,Código DI,Código Tipo Linha,Modelo Equipamento,Número de Assentos,Sigla ICAO Aeroporto Origem,Descrição Aeroporto Origem,Partida Prevista,Partida Real,Sigla ICAO Aeroporto Destino,Descrição Aeroporto Destino,Chegada Prevista,Chegada Real,Situação Voo,Justificativa,Referência,Situação Partida,Situação Chegada
0,1ED,SERVICIOS AÉREOS PANAMERICANOS LTDA. SARPA S.A.S,5330,7,I,E145,50,SKLT,ALFREDO VÁSQUEZ COBO INTERNATIONAL AIRPORT - L...,27/08/2023 18:10,27/08/2023 19:00,SLVR,VIRU VIRU INTERNATIONAL AIRPORT - SANTA CRUZ -...,27/08/2023 21:00,27/08/2023 21:50,REALIZADO,,27/08/2023 00:00:00,Atraso 30-60,Atraso 30-60
1,1ED,SERVICIOS AÉREOS PANAMERICANOS LTDA. SARPA S.A.S,5330,7,X,E145,50,SBCY,MARECHAL RONDON - VÁRZEA GRANDE - MT - BRASIL,,31/08/2023 07:07,SBEG,EDUARDO GOMES - MANAUS - AM - BRASIL,,31/08/2023 09:19,REALIZADO,,27/08/2023 00:00:00,,
2,1ED,SERVICIOS AÉREOS PANAMERICANOS LTDA. SARPA S.A.S,5330,7,X,E145,50,SBEG,EDUARDO GOMES - MANAUS - AM - BRASIL,,31/08/2023 10:50,SKPE,MATECAÑA INTERNATIONAL AIRPORT - PEREIRA - COL...,,31/08/2023 13:36,REALIZADO,,27/08/2023 00:00:00,,
3,1ED,SERVICIOS AÉREOS PANAMERICANOS LTDA. SARPA S.A.S,5330,7,X,E145,50,SBGR,GUARULHOS - GOVERNADOR ANDRÉ FRANCO MONTORO - ...,,31/08/2023 02:15,SBCY,MARECHAL RONDON - VÁRZEA GRANDE - MT - BRASIL,,31/08/2023 04:55,REALIZADO,,27/08/2023 00:00:00,,
4,1ED,SERVICIOS AÉREOS PANAMERICANOS LTDA. SARPA S.A.S,5330,7,I,E145,50,SLVR,VIRU VIRU INTERNATIONAL AIRPORT - SANTA CRUZ -...,27/08/2023 22:00,27/08/2023 22:54,SBGR,GUARULHOS - GOVERNADOR ANDRÉ FRANCO MONTORO - ...,28/08/2023 00:55,28/08/2023 01:23,REALIZADO,,27/08/2023 00:00:00,Atraso 30-60,Pontual


### Selecionando apenas as colunas necessárias

In [33]:
df_voos_selected = df_voos[['Sigla ICAO Empresa Aérea', 'Empresa Aérea', 'Número Voo',
                            'Número de Assentos', 'Sigla ICAO Aeroporto Origem',
                            'Partida Prevista', 'Partida Real', 'Sigla ICAO Aeroporto Destino',
                            'Chegada Prevista','Chegada Real', 'Situação Voo', 'Situação Partida', 'Situação Chegada']]

In [34]:
df_aeroportos_selected =  df_aeroportos[['CÓDIGO OACI', 'CIAD', 'NOME', 'LATITUDE', 'LONGITUDE', 'MUNICÍPIO ATENDIDO', 'UF',]]

### Filtrando voos domésticos

In [35]:
# Realizando o merge para aeroportos de origem
df_voos_brasil_origem = pd.merge(df_voos_selected, df_aeroportos_selected,
                                 left_on='Sigla ICAO Aeroporto Origem', right_on='CÓDIGO OACI',
                                 how='inner')

# Realizando o merge para aeroportos de destino
df_voos_brasil_destino = pd.merge(df_voos_brasil_origem, df_aeroportos_selected,
                                  left_on='Sigla ICAO Aeroporto Destino', right_on='CÓDIGO OACI',
                                  how='inner',
                                  suffixes=('_origem', '_destino'))

# Selecionando apenas os voos domésticos (com origem e destino no Brasil)
df_voos_domesticos = df_voos_brasil_destino[['Sigla ICAO Empresa Aérea', 'Empresa Aérea', 'Número Voo',
                                             'Número de Assentos', 'Sigla ICAO Aeroporto Origem',
                                             'Partida Prevista', 'Partida Real', 'Sigla ICAO Aeroporto Destino',
                                             'Chegada Prevista', 'Chegada Real', 'Situação Voo', 'Situação Partida', 'Situação Chegada', 'NOME_origem', 
                                             'NOME_destino', 'LATITUDE_origem', 'LONGITUDE_origem',
                                             'LATITUDE_destino', 'LONGITUDE_destino']]

# Mostrando o resultado
df_voos_domesticos.head(5)

Unnamed: 0,Sigla ICAO Empresa Aérea,Empresa Aérea,Número Voo,Número de Assentos,Sigla ICAO Aeroporto Origem,Partida Prevista,Partida Real,Sigla ICAO Aeroporto Destino,Chegada Prevista,Chegada Real,Situação Voo,Situação Partida,Situação Chegada,NOME_origem,NOME_destino,LATITUDE_origem,LONGITUDE_origem,LATITUDE_destino,LONGITUDE_destino
0,1ED,SERVICIOS AÉREOS PANAMERICANOS LTDA. SARPA S.A.S,5330,50,SBCY,,31/08/2023 07:07,SBEG,,31/08/2023 09:19,REALIZADO,,,MARECHAL RONDON,EDUARDO GOMES,15° 39' 0'' S,56° 7' 3'' W,3° 2' 28'' S,60° 3' 2'' W
1,1ED,SERVICIOS AÉREOS PANAMERICANOS LTDA. SARPA S.A.S,5330,50,SBGR,,31/08/2023 02:15,SBCY,,31/08/2023 04:55,REALIZADO,,,GUARULHOS - GOVERNADOR ANDRÉ FRANCO MONTORO,MARECHAL RONDON,23° 26' 8'' S,46° 28' 23'' W,15° 39' 0'' S,56° 7' 3'' W
2,1ED,SERVICIOS AÉREOS PANAMERICANOS LTDA. SARPA S.A.S,5330,50,SBGR,31/08/2023 02:15,,SBCY,31/08/2023 04:40,,CANCELADO,,,GUARULHOS - GOVERNADOR ANDRÉ FRANCO MONTORO,MARECHAL RONDON,23° 26' 8'' S,46° 28' 23'' W,15° 39' 0'' S,56° 7' 3'' W
3,1ED,SERVICIOS AÉREOS PANAMERICANOS LTDA. SARPA S.A.S,5330,50,SBCY,31/08/2023 05:40,,SBEG,31/08/2023 08:15,,CANCELADO,,,MARECHAL RONDON,EDUARDO GOMES,15° 39' 0'' S,56° 7' 3'' W,3° 2' 28'' S,60° 3' 2'' W
4,AAL,"AMERICAN AIRLINES, INC.",963,285,SBGL,,21/06/2023 09:05,SBGR,,21/06/2023 10:26,REALIZADO,,,AEROPORTO INTERNACIONAL DO RIO DE JANEIRO/GALE...,GUARULHOS - GOVERNADOR ANDRÉ FRANCO MONTORO,22° 48' 36'' S,43° 15' 2'' W,23° 26' 8'' S,46° 28' 23'' W


### Tratando as colunas de latitude e longitude

In [36]:
df_voos_domesticos = df_voos_domesticos.assign(
    LATITUDE_origem_decimal=df_voos_domesticos['LATITUDE_origem'].apply(converter_coordenada),
    LATITUDE_destino_decimal=df_voos_domesticos['LATITUDE_destino'].apply(converter_coordenada),
    LONGITUDE_origem_decimal=df_voos_domesticos['LONGITUDE_origem'].apply(converter_coordenada),
    LONGITUDE_destino_decimal=df_voos_domesticos['LONGITUDE_destino'].apply(converter_coordenada)
)

df_voos_domesticos = df_voos_domesticos.drop(['LATITUDE_origem', 'LATITUDE_destino', 'LONGITUDE_origem', 'LONGITUDE_destino'], axis=1)

In [37]:
df_voos_domesticos = df_voos_domesticos.rename(columns={'LATITUDE_origem_decimal': 'lat_origem',
                        'LONGITUDE_origem_decimal': 'lon_origem',
                        'LATITUDE_destino_decimal': 'lat_destino',
                        'LONGITUDE_destino_decimal': 'lon_destino'})

## Adição de métricas e henriquecimento da base

### Calculando a distância entre os aeroportos de origem e destino

In [38]:
df_voos_domesticos['distancia'] = df_voos_domesticos.apply(lambda row: haversine(row['lat_origem'], row['lon_origem'], row['lat_destino'], row['lon_destino']), axis=1)

df_voos_domesticos.head(5)

Unnamed: 0,Sigla ICAO Empresa Aérea,Empresa Aérea,Número Voo,Número de Assentos,Sigla ICAO Aeroporto Origem,Partida Prevista,Partida Real,Sigla ICAO Aeroporto Destino,Chegada Prevista,Chegada Real,Situação Voo,Situação Partida,Situação Chegada,NOME_origem,NOME_destino,lat_origem,lat_destino,lon_origem,lon_destino,distancia
0,1ED,SERVICIOS AÉREOS PANAMERICANOS LTDA. SARPA S.A.S,5330,50,SBCY,,31/08/2023 07:07,SBEG,,31/08/2023 09:19,REALIZADO,,,MARECHAL RONDON,EDUARDO GOMES,-15.65,-3.041111,-56.1175,-60.050556,1466.673883
1,1ED,SERVICIOS AÉREOS PANAMERICANOS LTDA. SARPA S.A.S,5330,50,SBGR,,31/08/2023 02:15,SBCY,,31/08/2023 04:55,REALIZADO,,,GUARULHOS - GOVERNADOR ANDRÉ FRANCO MONTORO,MARECHAL RONDON,-23.435556,-15.65,-46.473056,-56.1175,1329.813082
2,1ED,SERVICIOS AÉREOS PANAMERICANOS LTDA. SARPA S.A.S,5330,50,SBGR,31/08/2023 02:15,,SBCY,31/08/2023 04:40,,CANCELADO,,,GUARULHOS - GOVERNADOR ANDRÉ FRANCO MONTORO,MARECHAL RONDON,-23.435556,-15.65,-46.473056,-56.1175,1329.813082
3,1ED,SERVICIOS AÉREOS PANAMERICANOS LTDA. SARPA S.A.S,5330,50,SBCY,31/08/2023 05:40,,SBEG,31/08/2023 08:15,,CANCELADO,,,MARECHAL RONDON,EDUARDO GOMES,-15.65,-3.041111,-56.1175,-60.050556,1466.673883
4,AAL,"AMERICAN AIRLINES, INC.",963,285,SBGL,,21/06/2023 09:05,SBGR,,21/06/2023 10:26,REALIZADO,,,AEROPORTO INTERNACIONAL DO RIO DE JANEIRO/GALE...,GUARULHOS - GOVERNADOR ANDRÉ FRANCO MONTORO,-22.81,-23.435556,-43.250556,-46.473056,336.791839


### Adicionando coluna do numero de assentos ocupados gerados de forma randomica

In [39]:
df_voos_domesticos['assentos_ocupados'] = df_voos_domesticos.apply(lambda row: gerar_assentos_ocupados \
                                                                    (row['Número de Assentos']), axis=1) 

## Separando tabelas conforme modelagem

![image-2.png](attachment:image-2.png)

### Tabela estado

In [52]:

data = {
    'Estado': ['Acre', 'Alagoas', 'Amapá', 'Amazonas', 'Bahia', 'Ceará', 'Distrito Federal', 'Espírito Santo', 
               'Goiás', 'Maranhão', 'Mato Grosso', 'Mato Grosso do Sul', 'Minas Gerais', 'Pará', 'Paraíba', 
               'Paraná', 'Pernambuco', 'Piauí', 'Rio de Janeiro', 'Rio Grande do Norte', 'Rio Grande do Sul', 
               'Rondônia', 'Roraima', 'Santa Catarina', 'São Paulo', 'Sergipe', 'Tocantins'],
    'Sigla': ['AC', 'AL', 'AP', 'AM', 'BA', 'CE', 'DF', 'ES', 'GO', 'MA', 'MT', 'MS', 'MG', 'PA', 'PB', 
              'PR', 'PE', 'PI', 'RJ', 'RN', 'RS', 'RO', 'RR', 'SC', 'SP', 'SE', 'TO']
}

tb_estado = pd.DataFrame(data)
tb_estado['ID'] = tb_estado.index + 1
tb_estado = tb_estado[['ID', 'Sigla', 'Estado']]

tb_estado.head()
tb_estado.to_csv('output/dim_estado.csv', index=False)


### Tabela cidade


In [53]:
tb_cidade = df_aeroportos[['MUNICÍPIO ATENDIDO', 'UF']]
tb_cidade = tb_cidade.merge(tb_estado, left_on='UF', right_on='Sigla')
tb_cidade = tb_cidade.rename(columns={'ID':'uf_id'})
tb_cidade = tb_cidade.drop(columns={'Estado','Sigla'})
tb_cidade['ID'] = tb_cidade.index + 1
tb_cidade = tb_cidade[['ID', 'MUNICÍPIO ATENDIDO', 'UF', 'uf_id']]

tb_cidade = tb_cidade.drop_duplicates()

tb_cidade
tb_cidade.to_csv('output/dim_cidade.csv', index=False)

### Tabela aeroporto

In [54]:
#tabela aeroporto

tb_aeroporto = df_aeroportos_selected[['CÓDIGO OACI', 'MUNICÍPIO ATENDIDO']]
tb_aeroporto = tb_aeroporto.merge(tb_cidade, on='MUNICÍPIO ATENDIDO')
tb_aeroporto = tb_aeroporto.rename(columns={'ID':'cidade_id'})
tb_aeroporto = tb_aeroporto.drop(columns={'UF', 'uf_id'})
tb_aeroporto['ID'] = tb_aeroporto.index + 1
tb_aeroporto = tb_aeroporto[['ID', 'CÓDIGO OACI', 'MUNICÍPIO ATENDIDO', 'cidade_id']]

tb_aeroporto = tb_aeroporto.drop_duplicates(subset=['CÓDIGO OACI' , 'MUNICÍPIO ATENDIDO'])

tb_aeroporto
tb_aeroporto.to_csv('output/dim_aeroporto.csv', index=False)


### Tabela empresa aérea


In [55]:
tb_empresa_aerea = df_empresas[['Sigla OACI', 'Nome Empresas']]
tb_empresa_aerea['ID'] = tb_empresa_aerea.index + 1
tb_empresa_aerea = tb_empresa_aerea[['ID', 'Sigla OACI', 'Nome Empresas']]

tb_empresa_aerea
tb_empresa_aerea.to_csv('output/dim_empresa_aerea.csv', index=False)


### Tabela data

In [67]:
partida_prevista = pd.to_datetime(df_voos_domesticos['Partida Prevista'])
partida_real = pd.to_datetime(df_voos_domesticos['Partida Real'])
chegada_prevista = pd.to_datetime(df_voos_domesticos['Chegada Prevista'])
chegada_real = pd.to_datetime(df_voos_domesticos['Chegada Real'])

datas_completas = pd.concat([partida_prevista, partida_real, chegada_prevista, chegada_real])
datas_completas = datas_completas.to_frame(name='dataCompleta')

tb_data = datas_completas.drop_duplicates().dropna().reset_index(drop=True)

tb_data['ano'] = tb_data['dataCompleta'].dt.year
tb_data['mes'] = tb_data['dataCompleta'].dt.month
tb_data['dia'] = tb_data['dataCompleta'].dt.day
tb_data['hora'] = tb_data['dataCompleta'].dt.hour
tb_data['minuto'] = tb_data['dataCompleta'].dt.minute
tb_data['segundo'] = tb_data['dataCompleta'].dt.second

tb_data['Id'] = tb_data.index + 1

tb_data = tb_data[['Id', 'dataCompleta', 'ano', 'mes', 'dia', 'hora', 'minuto', 'segundo']]

tb_data.head()
tb_data.to_csv('output/dim_data.csv', index=False)


  partida_prevista = pd.to_datetime(df_voos_domesticos['Partida Prevista'])
  partida_real = pd.to_datetime(df_voos_domesticos['Partida Real'])
  chegada_prevista = pd.to_datetime(df_voos_domesticos['Chegada Prevista'])
  chegada_real = pd.to_datetime(df_voos_domesticos['Chegada Real'])


### Tabela fato voo

#### Join empresa aerea

In [69]:
df_result = tb_empresa_aerea.merge(df_voos_domesticos, left_on='Sigla OACI', right_on='Sigla ICAO Empresa Aérea')

df_join_empresa_aerea = df_result.rename(columns={'ID':'empresa_aerea_id'})

df_join_empresa_aerea


Unnamed: 0,empresa_aerea_id,Sigla OACI,Nome Empresas,Sigla ICAO Empresa Aérea,Empresa Aérea,Número Voo,Número de Assentos,Sigla ICAO Aeroporto Origem,Partida Prevista,Partida Real,...,Situação Partida,Situação Chegada,NOME_origem,NOME_destino,lat_origem,lat_destino,lon_origem,lon_destino,distancia,assentos_ocupados
0,1,AAL,AMERICAN AIRLINES INC,AAL,"AMERICAN AIRLINES, INC.",0963,285,SBGL,,21/06/2023 09:05,...,,,AEROPORTO INTERNACIONAL DO RIO DE JANEIRO/GALE...,GUARULHOS - GOVERNADOR ANDRÉ FRANCO MONTORO,-22.810000,-23.435556,-43.250556,-46.473056,336.791839,255
1,1,AAL,AMERICAN AIRLINES INC,AAL,"AMERICAN AIRLINES, INC.",0905,234,SBCF,,02/08/2023 09:55,...,,,TANCREDO NEVES,AEROPORTO INTERNACIONAL DO RIO DE JANEIRO/GALE...,-19.624444,-22.810000,-43.971944,-43.250556,362.021660,219
2,1,AAL,AMERICAN AIRLINES INC,AAL,"AMERICAN AIRLINES, INC.",0995,234,SBGL,,24/08/2023 09:23,...,,,AEROPORTO INTERNACIONAL DO RIO DE JANEIRO/GALE...,GUARULHOS - GOVERNADOR ANDRÉ FRANCO MONTORO,-22.810000,-23.435556,-43.250556,-46.473056,336.791839,196
3,1,AAL,AMERICAN AIRLINES INC,AAL,"AMERICAN AIRLINES, INC.",0948,272,SBGL,,28/12/2023 22:07,...,,,AEROPORTO INTERNACIONAL DO RIO DE JANEIRO/GALE...,EDUARDO GOMES,-22.810000,-3.041111,-43.250556,-60.050556,2847.404725,168
4,1,AAL,AMERICAN AIRLINES INC,AAL,"AMERICAN AIRLINES, INC.",9603,0,SBBR,,28/04/2024 09:58,...,,,PRESIDENTE JUSCELINO KUBITSCHEK,GUARULHOS - GOVERNADOR ANDRÉ FRANCO MONTORO,-15.871111,-23.435556,-47.918611,-46.473056,854.613441,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1243674,156,TTL,TOTAL,TTL,TOTAL LINHAS AÉREAS S.A.,5683,0,SBGR,31/07/2024 02:20,31/07/2024 02:10,...,Antecipado,Antecipado,GUARULHOS - GOVERNADOR ANDRÉ FRANCO MONTORO,AEROPORTO INTERNACIONAL DO RIO DE JANEIRO/GALE...,-23.435556,-22.810000,-46.473056,-43.250556,336.791839,0
1243675,156,TTL,TOTAL,TTL,TOTAL LINHAS AÉREAS S.A.,5683,0,SBGL,31/07/2024 04:20,31/07/2024 04:12,...,Antecipado,Antecipado,AEROPORTO INTERNACIONAL DO RIO DE JANEIRO/GALE...,EURICO DE AGUIAR SALLES,-22.810000,-20.258056,-43.250556,-40.286389,417.727084,0
1243676,162,UAE,EMIRATES,UAE,EMIRATES,0261,516,SBGL,,27/09/2023 19:15,...,,,AEROPORTO INTERNACIONAL DO RIO DE JANEIRO/GALE...,GUARULHOS - GOVERNADOR ANDRÉ FRANCO MONTORO,-22.810000,-23.435556,-43.250556,-46.473056,336.791839,278
1243677,162,UAE,EMIRATES,UAE,EMIRATES,0261,0,SBGL,,29/11/2023 01:36,...,,,AEROPORTO INTERNACIONAL DO RIO DE JANEIRO/GALE...,GUARULHOS - GOVERNADOR ANDRÉ FRANCO MONTORO,-22.810000,-23.435556,-43.250556,-46.473056,336.791839,0


#### Join aeroporto

In [70]:
# aeroporto origem
df_result = df_join_empresa_aerea.merge(tb_aeroporto, left_on='Sigla ICAO Aeroporto Origem', right_on='CÓDIGO OACI')

df_join_aeroporto_origem = df_result.rename(columns={'ID':'aeroporto_origem_id'})

# aeroporto destino
df_result = df_join_aeroporto_origem.merge(tb_aeroporto, left_on='Sigla ICAO Aeroporto Destino', right_on='CÓDIGO OACI')

df_join_aeroporto_origem_destino = df_result.rename(columns={'ID':'aeroporto_destino_id'})

#### Join data

In [71]:
df_join_aeroporto_origem_destino['Partida Prevista'] = pd.to_datetime(df_join_aeroporto_origem_destino['Partida Prevista'], format='%d/%m/%Y %H:%M')
df_join_aeroporto_origem_destino['Partida Real'] = pd.to_datetime(df_join_aeroporto_origem_destino['Partida Real'], format='%d/%m/%Y %H:%M')
df_join_aeroporto_origem_destino['Chegada Prevista'] = pd.to_datetime(df_join_aeroporto_origem_destino['Chegada Prevista'], format='%d/%m/%Y %H:%M')
df_join_aeroporto_origem_destino['Chegada Real'] = pd.to_datetime(df_join_aeroporto_origem_destino['Chegada Real'], format='%d/%m/%Y %H:%M')


# partida prevista
df_result = df_join_aeroporto_origem_destino.merge(tb_data, left_on='Partida Prevista', right_on='dataCompleta', suffixes=('', '_partida_real'))

df_join_partida_prevista = df_result.rename(columns={'Id':'data_partida_prevista_id'})


#partida real
df_result = df_join_partida_prevista.merge(tb_data, left_on='Partida Real', right_on='dataCompleta', suffixes=('', '_partida_real'))

df_join_partida_prevista_real = df_result.rename(columns={'Id':'data_partida_real_id'})


#chegada prevista
df_result = df_join_partida_prevista_real.merge(tb_data, left_on='Chegada Prevista', right_on='dataCompleta', suffixes=('', '_chegada_prevista'))

df_partida_completa_chegada_prevista = df_result.rename(columns={'Id':'data_chegada_prevista_id'})

#chegada real
df_result = df_partida_completa_chegada_prevista.merge(tb_data, left_on='Chegada Real', right_on='dataCompleta', suffixes=('', '_chegada_real'))

df_datas_partida_chegada = df_result.rename(columns={'Id':'data_chegada_real_id'})


In [72]:
df_datas_partida_chegada.columns

Index(['empresa_aerea_id', 'Sigla OACI', 'Nome Empresas',
       'Sigla ICAO Empresa Aérea', 'Empresa Aérea', 'Número Voo',
       'Número de Assentos', 'Sigla ICAO Aeroporto Origem', 'Partida Prevista',
       'Partida Real', 'Sigla ICAO Aeroporto Destino', 'Chegada Prevista',
       'Chegada Real', 'Situação Voo', 'Situação Partida', 'Situação Chegada',
       'NOME_origem', 'NOME_destino', 'lat_origem', 'lat_destino',
       'lon_origem', 'lon_destino', 'distancia', 'assentos_ocupados',
       'aeroporto_origem_id', 'CÓDIGO OACI_x', 'MUNICÍPIO ATENDIDO_x',
       'cidade_id_x', 'aeroporto_destino_id', 'CÓDIGO OACI_y',
       'MUNICÍPIO ATENDIDO_y', 'cidade_id_y', 'data_partida_prevista_id',
       'dataCompleta', 'ano', 'mes', 'dia', 'hora', 'minuto', 'segundo',
       'data_partida_real_id', 'dataCompleta_partida_real', 'ano_partida_real',
       'mes_partida_real', 'dia_partida_real', 'hora_partida_real',
       'minuto_partida_real', 'segundo_partida_real',
       'data_chegada_p

In [78]:
tb_fato_voo = df_datas_partida_chegada[['empresa_aerea_id', 'aeroporto_origem_id', 'aeroporto_destino_id', 'data_partida_prevista_id', 'data_partida_real_id', 'data_chegada_real_id', \
    'Situação Voo', 'Número Voo', 'Situação Partida', 'Situação Chegada', 'Número de Assentos', 'assentos_ocupados', 'distancia']]

tb_fato_voo.drop_duplicates()

tb_fato_voo = tb_fato_voo.sample(frac=1, random_state=1).reset_index(drop=True)

tb_fato_voo = tb_fato_voo.head(700000)

tb_fato_voo.to_csv('output/fato_voo.csv', index=False)


### Tabela fato reclamação

In [64]:
df_reclamacoes.columns

Index(['Gestor', 'Região', 'UF', 'Cidade', 'Ano Abertura', 'Mês Abertura',
       'Data Abertura', 'Data e Hora Resposta', 'Data e Hora Análise',
       'Data e Hora Recusa', 'Data Finalização', 'Prazo Resposta',
       'Prazo Análise Gestor (em dias)', 'Tempo Resposta (em dias)',
       'Nome Fantasia', 'Área', 'Assunto', 'Grupo Problema', 'Problema',
       'Forma Contrato', 'Procurou Empresa', 'Respondida', 'Situação',
       'Avaliação Reclamação', 'Nota do Consumidor', 'Edição de Conteúdo',
       'Interação do Gestor', 'Código Classificador ANAC'],
      dtype='object')

In [76]:
import hashlib

# Selecionando as colunas necessárias de df_reclamacoes
df_reclamacoes_selected = df_reclamacoes[['Data Abertura', 'Data Finalização', 'Nome Fantasia', 'Área', 'Assunto', 'Grupo Problema', 'Situação', 'Avaliação Reclamação', 'Cidade']]

# Renomeando as colunas para a tabela fato_reclamacao
tb_fato_reclamacao = df_reclamacoes_selected.rename(columns={
    'Data Abertura': 'data_abertura',
    'Data Finalização': 'data_finalizacao',
    'Nome Fantasia': 'nome_fantasia',
    'Área': 'area_reclamacao',
    'Assunto': 'assunto_reclamacao',
    'Grupo Problema': 'grupo_problema',
    'Situação': 'situacao_reclamacao',
    'Avaliação Reclamação': 'avaliacao_reclamacao',
    'Cidade': 'cidade'
})


tb_fato_reclamacao['cidade'] = tb_fato_reclamacao['cidade'].str.upper()
tb_fato_reclamacao = tb_fato_reclamacao.merge(tb_cidade, left_on='cidade', right_on='MUNICÍPIO ATENDIDO')


tb_fato_reclamacao = tb_fato_reclamacao.rename(columns={'ID': 'cidade_id'})

# Adicionando coluna de ID
tb_fato_reclamacao['ID'] = tb_fato_reclamacao.index + 1

tb_fato_reclamacao = tb_fato_reclamacao[['ID','data_abertura', 'data_finalizacao', 'nome_fantasia', 'area_reclamacao', 'assunto_reclamacao', 'grupo_problema', 'situacao_reclamacao', 'avaliacao_reclamacao', 'cidade_id']]

tb_fato_reclamacao

# Criando a coluna hash_reclamacao
tb_fato_reclamacao['hash_reclamacao'] = tb_fato_reclamacao.apply(
    lambda row: hashlib.sha256(
        f"{row['data_abertura']}{row['data_finalizacao']}{row['nome_fantasia']}{row['area_reclamacao']}{row['assunto_reclamacao']}{row['grupo_problema']}{row['situacao_reclamacao']}{row['avaliacao_reclamacao']}{row['cidade_id']}".encode('utf-8')
    ).hexdigest(), axis=1
)

tb_fato_reclamacao
tb_fato_reclamacao.to_csv('output/fato_reclamacao.csv', index=False)


### Tabela fato reclamacao voo