In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import norm, lognorm

# Análise do Dataset de Estatísticas do Transporte Aéreo

URL: https://sistemas.anac.gov.br/dadosabertos/Voos%20e%20operações%20aéreas/Dados%20Estatísticos%20do%20Transporte%20Aéreo/

In [2]:
df = pd.read_json('../dados/transporte_aereo/Fixed_Dados_Estatisticos_2021_a_2030.json', encoding='utf-8')

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 83435 entries, 0 to 83434
Data columns (total 38 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   EMPRESA_SIGLA                    0 non-null      float64
 1   EMPRESA_NOME                     83435 non-null  object 
 2   EMPRESA_NACIONALIDADE            83435 non-null  object 
 3   ANO                              83435 non-null  int64  
 4   MES                              83435 non-null  int64  
 5   AEROPORTO_DE_ORIGEM_SIGLA        83435 non-null  object 
 6   AEROPORTO_DE_ORIGEM_NOME         83435 non-null  object 
 7   AEROPORTO_DE_ORIGEM_UF           83435 non-null  object 
 8   AEROPORTO_DE_ORIGEM_REGIAO       83435 non-null  object 
 9   AEROPORTO_DE_ORIGEM_PAIS         83435 non-null  object 
 10  AEROPORTO_DE_ORIGEM_CONTINENTE   83435 non-null  object 
 11  AEROPORTO_DE_DESTINO_SIGLA       83435 non-null  object 
 12  AEROPORTO_DE_DESTI

## Dicionário de dados

| Nome da Variável                   | Atributos DType  | Descrição                                                                                          |
|-----------------------------------|-------------------|----------------------------------------------------------------------------------------------------|
| EMPRESA_SIGLA                      | float64           | Sigla da empresa aérea (coluna vazia).                                                            |
| EMPRESA_NOME                       | object            | Nome completo da empresa aérea.                                                                    |
| EMPRESA_NACIONALIDADE              | object            | Nacionalidade da empresa aérea.                                                                    |
| ANO                                | int64             | Ano do registro.                                                                                   |
| MES                                | int64             | Mês do registro.                                                                                   |
| AEROPORTO_DE_ORIGEM_SIGLA          | object            | Sigla do aeroporto de origem.                                                                      |
| AEROPORTO_DE_ORIGEM_NOME           | object            | Nome completo do aeroporto de origem.                                                              |
| AEROPORTO_DE_ORIGEM_UF             | object            | Unidade Federativa do aeroporto de origem.                                                         |
| AEROPORTO_DE_ORIGEM_REGIAO         | object            | Região do aeroporto de origem.                                                                     |
| AEROPORTO_DE_ORIGEM_PAIS           | object            | País do aeroporto de origem.                                                                       |
| AEROPORTO_DE_ORIGEM_CONTINENTE     | object            | Continente do aeroporto de origem.                                                                 |
| AEROPORTO_DE_DESTINO_SIGLA         | object            | Sigla do aeroporto de destino.                                                                     |
| AEROPORTO_DE_DESTINO_NOME          | object            | Nome completo do aeroporto de destino.                                                             |
| AEROPORTO_DE_DESTINO_UF            | object            | Unidade Federativa do aeroporto de destino.                                                        |
| AEROPORTO_DE_DESTINO_REGIAO        | object            | Região do aeroporto de destino.                                                                    |
| AEROPORTO_DE_DESTINO_PAIS          | object            | País do aeroporto de destino.                                                                      |
| AEROPORTO_DE_DESTINO_CONTINENTE    | object            | Continente do aeroporto de destino.                                                                |
| NATUREZA                           | object            | Natureza do voo (por exemplo, doméstico, internacional).                                           |
| GRUPO_DE_VOO                       | object            | Grupo ou categoria do voo.                                                                         |
| PASSAGEIROS_PAGOS                  | object            | Quantidade de passageiros pagantes.                                                                |
| PASSAGEIROS_GRATIS                 | object            | Quantidade de passageiros com passagens gratuitas.                                                 |
| CARGA_PAGA_KG                      | object            | Quantidade de carga paga (em kg).                                                                  |
| CARGA_GRATIS_KG                    | object            | Quantidade de carga gratuita (em kg).                                                              |
| CORREIO_KG                         | object            | Quantidade de correio transportado (em kg).                                                        |
| ASK                                | object            | Assentos disponíveis por quilômetro voado.                                                         |
| RPK                                | object            | Passageiros pagantes por quilômetro voado.                                                         |
| ATK                                | object            | Capacidade de transporte por quilômetro voado.                                                     |
| RTK                                | object            | Receita de transporte por quilômetro voado.                                                        |
| COMBUSTIVEL_LITROS                 | object            | Quantidade de combustível consumido (em litros).                                                   |
| DISTANCIA_VOADA_KM                 | object            | Distância total voada (em km).                                                                     |
| DECOLAGENS                         | object            | Número total de decolagens.                                                                        |
| CARGA_PAGA_KM                      | object            | Distância voada por carga paga (em km).                                                            |
| CARGA_GRATIS_KM                    | object            | Distância voada por carga gratuita (em km).                                                        |
| CORREIO_KM                         | object            | Distância voada pelo correio (em km).                                                              |
| ASSENTOS                           | object            | Número total de assentos disponíveis no voo.                                                       |
| PAYLOAD                            | object            | Capacidade total de carga e passageiros (em kg).                                                   |
| HORAS_VOADAS                       | object            | Total de horas voadas.                                                                             |
| BAGAGEM_KG                         | object            | Quantidade total de bagagem transportada (em kg).                                                  |


In [4]:
#### Vamos remover a coluna "EMPRESA_SIGLA" pois ela não é relevante para a análise
df.drop(columns=['EMPRESA_SIGLA'], inplace=True)

### Nota-se que algumas colunas deveriam ser numéricas, mas são do tipo object.

In [5]:
colunas_numericas = ["PASSAGEIROS_PAGOS",
"PASSAGEIROS_GRATIS",
"CARGA_PAGA_KG",
"CARGA_GRATIS_KG",
"CORREIO_KG",
"ASK",
"RPK",
"ATK",
"RTK",
"COMBUSTIVEL_LITROS",
"DISTANCIA_VOADA_KM",
"DECOLAGENS",
"CARGA_PAGA_KM",
"CARGA_GRATIS_KM",
"CORREIO_KM",
"ASSENTOS",
"PAYLOAD",
"HORAS_VOADAS",
"BAGAGEM_KG"
]

#### Vamos converter estas variáveis:

In [6]:
for col in colunas_numericas:
    df[col] = pd.to_numeric(df[col], errors='coerce')

#### Vamos converter o mes e o ano para variaveis categóricas (e aproveitar para formar uma data)

In [7]:
df['ANO'] = df['ANO'].astype('str')
df['MES'] = df['MES'].astype('str')

In [8]:
df['DATA'] = pd.to_datetime(df['ANO'] + df['MES'], format='%Y%m')

### Agora sim vamos ver quantos valores nulos temos em cada coluna:

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 83435 entries, 0 to 83434
Data columns (total 38 columns):
 #   Column                           Non-Null Count  Dtype         
---  ------                           --------------  -----         
 0   EMPRESA_NOME                     83435 non-null  object        
 1   EMPRESA_NACIONALIDADE            83435 non-null  object        
 2   ANO                              83435 non-null  object        
 3   MES                              83435 non-null  object        
 4   AEROPORTO_DE_ORIGEM_SIGLA        83435 non-null  object        
 5   AEROPORTO_DE_ORIGEM_NOME         83435 non-null  object        
 6   AEROPORTO_DE_ORIGEM_UF           83435 non-null  object        
 7   AEROPORTO_DE_ORIGEM_REGIAO       83435 non-null  object        
 8   AEROPORTO_DE_ORIGEM_PAIS         83435 non-null  object        
 9   AEROPORTO_DE_ORIGEM_CONTINENTE   83435 non-null  object        
 10  AEROPORTO_DE_DESTINO_SIGLA       83435 non-null  object   

### Observações

1. **Dimensão do DataFrame**: O dataframe possui 83.435 entradas e 38 colunas.

2. **Valores Ausentes**:
   - A coluna `EMPRESA_SIGLA` está completamente vazia (todos os 83.435 valores são nulos). Isso sugere que esta coluna pode não ser útil para análises posteriores, a menos que haja um plano para preencher ou utilizar esses dados de alguma outra forma.
   - Várias colunas, como `PASSAGEIROS_PAGOS`, `PASSAGEIROS_GRATIS`, `CARGA_PAGA_KG`, entre outras, têm 82702 entradas não nulas, o que significa que há 733 valores nulos em cada uma delas.
   - As colunas como `ASK`, `RPK`, `ATK`, entre outras, têm cerca de 75075 a 75088 entradas não nulas, indicando uma quantidade similar de valores nulos.
   - Isso sugere que pode haver entradas (linhas) específicas que têm valores ausentes em múltiplas colunas.

3. **Tipos de Dados**:
   - O dataframe tem uma combinação de tipos de dados: `float64` (19 colunas), `int64` (2 colunas) e `object` (17 colunas).

4. **Colunas Relacionadas**:
   - Existem várias colunas relacionadas a aeroportos de origem e destino (como sigla, nome, UF, região, país, continente). Isso pode ser útil para análises geográficas e para entender os padrões de tráfego aéreo.
   - Existem colunas separadas para informações sobre passageiros pagos e gratuitos, bem como carga paga e gratuita. Isso permite uma análise detalhada da composição dos voos.

5. **Dados de Tempo**:
   - Há colunas `ANO` e `MES`, que permitirão análises temporais e a identificação de tendências ou padrões sazonais.

6. **Uso de Memória**: O dataframe está usando mais de 24.2 MB de memória.

### Analisando as variáveis categóricas

In [10]:
colunas_categoricas = df.select_dtypes(include=['object']).columns.tolist()

analise_descritiva = {}

for coluna in colunas_categoricas:
    # Calculando cardinalidade e frequência de categorias
    cardinalidade = df[coluna].nunique()
    frequencias = df[coluna].value_counts()
    
    # Armazenando os resultados
    analise_descritiva[coluna] = {
        'Cardinalidade': cardinalidade,
        'Frequências': frequencias
    }
    
    # Convertendo a coluna para 'category'
    df[coluna] = df[coluna].astype('category')

# Imprimindo a análise descritiva
for coluna, desc in analise_descritiva.items():
    print(f"Coluna: {coluna}")
    print(f"Cardinalidade: {desc['Cardinalidade']}")
    print(f"Frequências:\n{desc['Frequências']}\n\n")

Coluna: EMPRESA_NOME
Cardinalidade: 139
Frequências:
EMPRESA_NOME
AZUL LINHAS AÉREAS BRASILEIRAS S/A                     22290
GOL LINHAS AÉREAS S.A. (EX- VRG LINHAS AÉREAS S.A.)    14230
TAM LINHAS AÉREAS S.A.                                 12584
AZUL CONECTA LTDA. (EX TWO TAXI AEREO LTDA)             4988
ABSA - AEROLINHAS BRASILEIRAS S.A.                      2510
                                                       ...  
AEROLÍNEA DEL CARIBE  S.A. - AERCARIBE                     2
CHRONO JET INC                                             2
SKY AIRLINE PERU S.A.C.                                    2
AVIOR AIRLINES BRASIL C.A.                                 2
ANDES LINEAS AEREAS                                        2
Name: count, Length: 139, dtype: int64


Coluna: EMPRESA_NACIONALIDADE
Cardinalidade: 2
Frequências:
EMPRESA_NACIONALIDADE
BRASILEIRA     64323
ESTRANGEIRA    19112
Name: count, dtype: int64


Coluna: ANO
Cardinalidade: 3
Frequências:
ANO
2022    35699
2021    28

### Analisando Variáveis Numéricas

In [11]:
# Seleção das colunas numéricas
colunas_numericas = df.select_dtypes(include=['float64', 'int64']).columns.tolist()

for coluna in colunas_numericas:
    print(f"Coluna: {coluna}")
    
    # Estatísticas descritivas
    descricao = df[coluna].describe()
    print(descricao)
    
    # Calculando skewness e kurtosis
    skewness = df[coluna].skew()
    kurtosis_val = df[coluna].kurt()
    
    print("\nSkewness (Normal = 0):", skewness)
    print("Kurtosis (Normal = 3):", kurtosis_val)
    
    print("\n" + "-"*50 + "\n")

Coluna: PASSAGEIROS_PAGOS
count    82702.000000
mean      2649.637530
std       5234.513211
min          0.000000
25%          0.000000
50%        169.000000
75%       3187.750000
max      67828.000000
Name: PASSAGEIROS_PAGOS, dtype: float64

Skewness (Normal = 0): 3.5865668782163858
Kurtosis (Normal = 3): 19.015960247221958

--------------------------------------------------

Coluna: PASSAGEIROS_GRATIS
count    82702.000000
mean        55.443617
std        145.325556
min          0.000000
25%          0.000000
50%          0.000000
75%         39.000000
max       2177.000000
Name: PASSAGEIROS_GRATIS, dtype: float64

Skewness (Normal = 0): 5.166944279794322
Kurtosis (Normal = 3): 36.6266782827892

--------------------------------------------------

Coluna: CARGA_PAGA_KG
count    8.270200e+04
mean     3.963199e+04
std      1.381248e+05
min      0.000000e+00
25%      0.000000e+00
50%      4.185000e+02
75%      1.474800e+04
max      4.339325e+06
Name: CARGA_PAGA_KG, dtype: float64

Skewne

# Formação de Baseline
Vamos começar criando um *baseline* preditivo seguindo os passos:

### 1. Seleção da Variável a ser Prevista:
Vamos escolher a variável `PASSAGEIROS_PAGOS` como a variável alvo. Parece ser uma variável interessante para prever, pois pode ser útil para as companhias aéreas fazerem planejamentos de capacidade, receita e outros.

### 2. Descrição do Problema:
Prever o `número de passageiros pagos` para um `voo específico` com o objetivo de auxiliar as companhias aéreas a otimizar a alocação de aeronaves, definir estratégias de preços e planejar recursos de tripulação e aeroporto.

### 3. Definição da Categoria do Problema:
É um problema de `**regressão**`, pois queremos prever um valor contínuo (número de passageiros pagos).

### 4 Cardápio de Métricas/Losses para Regressão

In [12]:
from sklearn.metrics import make_scorer

# 1. Erro Quadrático Médio (MSE)
def mse(y_true, y_pred):
    return np.mean((y_true - y_pred)**2)

# 2. Erro Absoluto Médio (MAE)
def mae(y_true, y_pred):
    return np.mean(np.abs(y_true - y_pred))

# 3. Raiz do Erro Quadrático Médio (RMSE)
def rmse(y_true, y_pred):
    return np.sqrt(mse(y_true, y_pred))

# 4. Erro Percentual Absoluto Médio (MAPE)
def mape(y_true, y_pred):
    return np.mean(np.abs((y_true - y_pred) / y_true))

# 5. R-Squared (Coeficiente de Determinação)
def r_squared(y_true, y_pred):
    ss_res = np.sum((y_true - y_pred)**2)
    ss_tot = np.sum((y_true - np.mean(y_true))**2)
    return 1 - (ss_res / ss_tot)

# 6. Quantile Loss
def quantile_loss(y_true, y_pred, tau=0.5):
    return np.mean(np.where(y_true >= y_pred, tau * (y_true - y_pred), (1 - tau) * (y_pred - y_true)))

# 7. MASE (Mean Absolute Scaled Error)
def mase(y_true, y_pred):
    n = len(y_true)
    naive_forecast = y_true[:-1]
    y_t_minus_one = y_true[1:]
    mae_naive = np.mean(np.abs(y_t_minus_one - naive_forecast))
    mae_model = mae(y_true[1:], y_pred[1:])
    return mae_model / mae_naive

# 8. CQR - Conformalized Quantile Regression (https://arxiv.org/pdf/1905.03222.pdf)
#    Implementação de Referência: https://mapie.readthedocs.io/en/latest/index.html

# Transformando métricas em scorers
mse_scorer = make_scorer(mse, greater_is_better=False)
mae_scorer = make_scorer(mae, greater_is_better=False)
rmse_scorer = make_scorer(rmse, greater_is_better=False)
mape_scorer = make_scorer(mape, greater_is_better=False)
r2_scorer = make_scorer(r_squared)
mase_scorer = make_scorer(mase, greater_is_better=False)

### 5. Função Loss:
A função loss mais comum para problemas de regressão é o **Erro Quadrático Médio (MSE)**.
Mas pela distribuição dos nosso dados, usaremos Quantile Loss.

### 6. Função Baseline SEM Machine Learning:
Uma abordagem simples é usar a média dos valores históricos como previsão para novos dados.

In [13]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error

# Selecionando variáveis preditoras e target
X = df.drop(columns=['PASSAGEIROS_PAGOS']).select_dtypes(include=[np.number])
y = df['PASSAGEIROS_PAGOS']

# Removendo linhas com valores NaN
X = X.dropna()
y = y[X.index]

# Dividindo os dados em conjuntos de treino e teste
_, _, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Função para calcular o valor médio do baseline
def baseline_medio(df):
    return df.mean()

# Calculando a média dos dados de treinamento
media_train = baseline_medio(y_train)

# Criando as previsões para o conjunto de teste (todas as previsões são a média)
y_pred = [media_train] * len(y_test)

# Calculando métricas para o baseline
rmse_baseline = mean_squared_error(y_test, y_pred, squared=False)
mae_baseline = mean_absolute_error(y_test, y_pred)

# Avaliar o desempenho usando as métricas definidas anteriormente
print("MSE:", mse(y_test, y_pred))
print("MAE:", mae(y_test, y_pred))
print("RMSE:", rmse(y_test, y_pred))
print("R-squared:", r_squared(y_test, y_pred))


MSE: 20386830.86831648
MAE: 2651.593368228083
RMSE: 4515.177833520677
R-squared: -0.0005852542927420323


### 7. Baseline COM Machine Learning:
Vamos usar uma regressão linear simples do scikit-learn como nosso modelo de *baseline*.

Quais variáveis `podemos` usar?

- `EMPRESA_NOME`: Algumas empresas podem ter uma média mais alta de passageiros pagantes do que outras.

- `EMPRESA_NACIONALIDADE`: A nacionalidade da empresa pode influenciar.

- `ANO` e `MES`: Variações sazonais ou tendências ao longo dos anos.

- `AEROPORTO_DE_ORIGEM_*` e `AEROPORTO_DE_DESTINO_*`: A origem e o destino podem ter impacto na quantidade de passageiros pagantes.

- `NATUREZA`: A natureza do voo (doméstico vs. internacional) pode ter impacto.

- `GRUPO_DE_VOO`: O grupo ou categoria do voo pode influenciar.

- `ASK` e `ATK`: Indicadores de capacidade.

- `COMBUSTIVEL_LITROS`: A quantidade de combustível pode ser um indicador indireto da distância ou da capacidade do avião.

- `DISTANCIA_VOADA_KM`: Distâncias mais longas podem acomodar mais passageiros.

- `DECOLAGENS`: Pode indicar a frequência de voos.

- `HORAS_VOADAS`: Indicador da duração dos voos.

 Quais variáveis `não` podemos usar?
  - `PASSAGEIROS_GRATIS`: pode estar correlacionado com a quantidade de passageiros pagantes.

  - `RPK`: Por definição, é a quantidade de passageiros pagantes por quilômetro voado, ou seja, é derivado diretamente da quantidade de passageiros pagantes.

  - `RTK`: Também pode estar correlacionado com a quantidade de passageiros pagantes.
  
  - Variáveis que são agregações ou derivadas da variável alvo, como `CARGA_PAGA_KG`, `CARGA_GRATIS_KG`, `CORREIO_KG`, `CARGA_PAGA_KM`, `CARGA_GRATIS_KM`, `CORREIO_KM`, `ASSENTOS`, `PAYLOAD`, `BAGAGEM_KG`.

In [14]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error

# Selecionando variáveis preditoras e removendo NaNs
X = df[['ASK', 'ATK', 'COMBUSTIVEL_LITROS', 'PASSAGEIROS_PAGOS']].dropna()
y = X['PASSAGEIROS_PAGOS']
X = X.drop('PASSAGEIROS_PAGOS', axis=1)

# Dividindo os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Treinando o modelo
model = LinearRegression()
model.fit(X_train, y_train)

# Fazendo previsões
y_pred = model.predict(X_test)

# Avaliar o desempenho usando as métricas definidas anteriormente
print("MSE:", mse(y_test, y_pred))
print("MAE:", mae(y_test, y_pred))
print("RMSE:", rmse(y_test, y_pred))
print("R-squared:", r_squared(y_test, y_pred))

MSE: 14775076.707305217
MAE: 2026.352144253059
RMSE: 3843.8361967317514
R-squared: 0.4953919095115026


In [15]:
import xgboost as xgb
from sklearn.model_selection import train_test_split

# Selecionando variáveis preditoras e removendo NaNs
X = df[['ASK', 'ATK', 'COMBUSTIVEL_LITROS', 'PASSAGEIROS_PAGOS']].dropna()
y = X['PASSAGEIROS_PAGOS']
X = X.drop('PASSAGEIROS_PAGOS', axis=1)

# Dividindo os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Treinar o modelo com a função de perda quantil
model = xgb.XGBRegressor(max_depth=5, n_estimators=100, learning_rate=0.1, objective="reg:squarederror", alpha=0.5)

model.fit(X_train, y_train)

# Fazer previsões
y_pred = model.predict(X_test)

# Avaliar o desempenho usando as métricas definidas anteriormente
print("MSE:", mse(y_test, y_pred))
print("MAE:", mae(y_test, y_pred))
print("RMSE:", rmse(y_test, y_pred))
print("R-squared:", r_squared(y_test, y_pred))


MSE: 2907775.57903236
MAE: 783.7351137551665
RMSE: 1705.2200969471244
R-squared: 0.9006917451887654


# Examplo de uso da API

In [16]:
import requests
import json

# URL da sua API
base_url = "http://127.0.0.1:8000"

# Selecionando variáveis preditoras e removendo NaNs
X = df[['ASK', 'ATK', 'COMBUSTIVEL_LITROS', 'PASSAGEIROS_PAGOS']].dropna()
y = X['PASSAGEIROS_PAGOS']

# Dividindo os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Exemplo de dados para treinar os modelos
train_data = X_train.to_dict(orient='records')

response_train = requests.post(f"{base_url}/train", json=train_data)
print(response_train.json())


{'message': 'Models trained successfully'}


In [26]:
# Dados de entrada para previsão (substitua pelos seus valores reais)
predict_data = {
    "ASK": 2397890.0,
    "ATK": 277088.0,
    "COMBUSTIVEL_LITROS": 85952.0
}

# Chama o endpoint /predict para o modelo xgboost
response_predict_xgb = requests.post(f"{base_url}/predict?model_type=xgboost", json=predict_data)
print("XGBoost Prediction:", response_predict_xgb.json())

# Chama o endpoint /predict para o modelo baseline
response_predict_baseline = requests.post(f"{base_url}/predict?model_type=baseline", json=predict_data)
print("Baseline Prediction:", response_predict_baseline.json())

XGBoost Prediction: {'prediction': 2866.163818359375}
Baseline Prediction: {'prediction': 2931.1177417191902}


In [48]:
df.sample()[['ASK', 'ATK', 'COMBUSTIVEL_LITROS', 'PASSAGEIROS_PAGOS']]

Unnamed: 0,ASK,ATK,COMBUSTIVEL_LITROS,PASSAGEIROS_PAGOS
61151,43188.0,2880.0,2921.0,28.0
