# ‚úàÔ∏è FlightOnTime ‚Äî Predi√ß√£o de Atrasos em Voos

O **FlightOnTime** √© um projeto de *Data Science* e *Back-End* voltado para prever a probabilidade de um voo **decolar no hor√°rio ou com atraso**, utilizando dados hist√≥ricos de avia√ß√£o civil.  
Ele faz parte de um desafio educacional cujo objetivo √© construir um **MVP preditivo** capaz de apoiar passageiros, companhias a√©reas e aeroportos na tomada de decis√£o.

## Descri√ß√£o do projeto

### üéØ Objetivo do Projeto

Criar um modelo de classifica√ß√£o bin√°ria que, a partir de informa√ß√µes de um voo ‚Äî como companhia a√©rea, origem, destino, hor√°rio e dist√¢ncia ‚Äî estima se ele ser√° **Pontual (0)** ou **Atrasado (1)**, retornando tamb√©m a probabilidade associada.

---

### üß† Pipeline de Data Science

O notebook conduz as principais etapas do fluxo de ci√™ncia de dados:

1. **ETL e limpeza dos dados**  
   - Carregamento, padroniza√ß√£o e enriquecimento das informa√ß√µes de voos.

2. **Engenharia de vari√°veis (Feature Engineering)**  
   - Extra√ß√£o de atributos relevantes, como:  
     hora do voo, dia da semana, dist√¢ncia, aeroportos, companhia a√©rea.

3. **Modelagem preditiva**  
   - Testes com algoritmos supervisionados (ex.: Logistic Regression, Random Forest).

4. **Avalia√ß√£o do modelo**  
   - M√©tricas como Acur√°cia, Precis√£o, Recall e F1-score.

5. **Exporta√ß√£o do modelo treinado**  
   - Serializa√ß√£o via `joblib` para uso pela API de Back-End.

---

### üõ†Ô∏è Integra√ß√£o com a API

O modelo gerado neste notebook ser√° consumido por uma **API REST em Java (Spring Boot)**, que disponibilizar√° o endpoint:

```
POST /predict
```

Retornando:

```json
{
  "previsao": "Atrasado",
  "probabilidade": 0.78
}
```

---

### üìå Sobre o Dataset

O projeto utiliza um conjunto de dados contendo informa√ß√µes reais de voos, incluindo:

- companhia a√©rea  
- aeroporto de origem e destino  
- data e hor√°rio de partida  
- dist√¢ncia do trecho  
- status de atraso  

As fun√ß√µes de ETL foram previamente desenvolvidas para garantir limpeza, consist√™ncia e rastreabilidade.

## üöÄ In√≠cio do Notebook

A partir daqui, o notebook executa o fluxo completo de prepara√ß√£o, an√°lise e modelagem, resultando em um modelo leve, funcional e pronto para produ√ß√£o no MVP do FlightOnTime.

### Imports Globais

In [None]:
import pandas as pd

from etl.etl import processar_dados, carregar_dados
from sklearn.model_selection import train_test_split

from utils.visualize_y import visualize_y
from utils.export_model import export_model
from utils.document_model import document_model
from utils.evaluate_model import evaluate_model
from utils.plot_automl_results import plot_algorithm_selection, plot_adaptive_sampling, plot_feature_selection, plot_model_tuning
from utils.experiment_automl_pipelines import run_experiments, evaluate_experimental_models, load_experimental_models

import automlx
from automlx import init # type: ignore

### Preprocessamento e Carga

Execute as fun√ß√µes abaixo para carregar os dados de fonte local ou para baixar, preprocessar e salvar os dados a partir da base de dados de v√¥os da ANAC (Ag√™ncia Nacional de Avia√ß√£o Civil).  

- Os dados s√£o salvos em ./dados/
- A fun√ß√£o `processar_dados` acessa toda a base de dados da ANAC a partir de Janeiro/2018 at√© Outubro/2025.
- O processo de ETL completo √© executado durante o processo.
- A engenharia de features j√° foi executada durante o processo, gerando a coluna "Atrasado" (Y) 

Para mais informa√ß√µes sobre o processo, consulte a [Documenta√ß√£o](./etl/README.md) do m√≥dulo etl.

#### Preprocessar com origem externa

Baixa e executa o preprocessamento em tempo de execu√ß√£o atrav√©s da base de dados abertos da ANAC.  
Link: https://sistemas.anac.gov.br/dadosabertos/Voos%20e%20opera%C3%A7%C3%B5es%20a%C3%A9reas/Voo%20Regular%20Ativo%20%28VRA%29/

In [None]:
# C√≥digo comentado por seguran√ßa
# Descomente a linha abaixo para executar o pipeline ETL completo

# df = processar_dados()

#### Preprocessar com origem local

Exemplo de nome de arquivo local:  
```python
filename = "dados_voos_20250101_153000"
```

- N√£o necessita informar o caminho do arquivo e extens√£o.  
- Caminho default: ./data
- Extens√£o default: .parquet

In [None]:
filename = "dados_voos_20260108_193425"
df = carregar_dados(filename=filename)

#### Visualiza√ß√µes

In [None]:
df.head()

##### Verificando o tamanho do dataframe

In [None]:
df.shape

##### Verificando os tipos das colunas

In [None]:
df.info()

#### Verificando ETL

In [None]:
def check_nulls(df: pd.DataFrame, col: str) -> None:
    nulls_notice = f'Coluna "{col}" possui {df[col].isna().sum()} valores nulos.'
    print(nulls_notice)
    return

def check_uniques(df: pd.DataFrame, col: str) -> None:
    print(f'Coluna "{col}":')
    print(f'{df[col].unique()}\n')
    return

##### Verificando Nulos

In [None]:
for col in df.columns:
    check_nulls(df, col)

##### Verificando Uniques

In [None]:
for col in df.columns:
    check_uniques(df, col)

### Visualizando (Y)

Aqui analisamos a distribui√ß√£o dos v√¥os atrasados no hist√≥rico de v√¥os observados.  

- Aproximadamente 2.5 milh√µes de v√¥os foram pontuais.  
- Aproximadamente 1.4 milh√µes de v√¥os atrasaram, totalizando aproximadamente 35.45% dos v√¥os observados.  

In [None]:
visualize_y(df, y_col_name='Atrasado')

### Separando X e Y

Aqui separaremos as features (X) da vari√°vel alvo (Y).

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    df.drop(columns=['Atrasado']),
    df['Atrasado'],
    test_size=0.3,
    random_state=42,
)

X_train.shape, X_test.shape, y_train.shape, y_test.shape

In [None]:
X_train.head()

In [None]:
y_train.head()

### Modelagem

Para o processo de modelagem, decidimos usar a moderna biblioteca [Oracle AutoMLx](https://docs.oracle.com/en-us/iaas/tools/automlx/latest/latest/index.html), que automatiza os processos de `Sele√ß√£o de Algoritmo`, `Sampling Adaptativo`, `Sele√ß√£o de Features` e `Ajuste de Hiperpar√¢metros`, resultando num processo facilitado e com melhores m√©tricas no modelo final.  

In [None]:
init(engine='local')

#### Refer√™ncia de Pipeline:

In [None]:
# Refer√™ncia de Pipeline:
# Deletar depois **

# custom_pipeline = automlx.Pipeline(
#     task='classification',
#     model_list=[                 # Specify the models you want the AutoMLx to consider
#         'LogisticRegression',
#         'LGBMClassifier',
#         'GaussianNB'
#     ],
#     n_algos_tuned=2,             # Choose how many models to tune
#     min_features=[               # Specify minimum features to force the model to use. It can take 3 possible types of values:
#         'native-country',        # If int, 0 < min_features <= n_features,
#         'marital-status',              # If float, 0 < min_features <= 1.0, 1.0 means disabling feature selection
#         'education-num'          # If list, names of features to keep, for example ['a', 'b'] means keep features 'a' and 'b'
#     ],
#     adaptive_sampling=False,     # Disable or enable Adaptive Sampling step. Default to `True`
#     preprocessing=True,          # Disable or enable Preprocessing step. Default to `True`
#     search_space={               # You can specify the hyper-parameters and ranges we search
#         'LGBMClassifier': {
#             'learning_rate': {'range': [0.01, 10], 'type': 'continuous'},
#             'boosting_type': {'range': ['gbdt', 'dart'], 'type': 'categorical'},
#         },
#     },
#     max_tuning_trials=2,         # The maximum number of tuning trials. Can be integer or Dict (max number for each model)
#     score_metric='f1_macro',     # Any scikit-learn metric or a custom function
# )

# est1 = custom_pipeline.fit(
#     X_train,
#     y_train,
#     # X_val,            # Optionally, provide validation data to skip internal CV
#     # y_val,
#     time_budget= 20,    # Specify time budget in seconds
#     cv='auto'           # Automatically pick a good cross-validation (cv) strategy for the user's dataset.
#                         # Ignored if X_valid and y_valid are provided.
#                         # Can also be:
#                         #   - An integer (For example, to use 5-fold cross validation)
#                         #   - A list of data indices to use as splits (for advanced, such as time-based splitting)
# )

#### Experimenta√ß√£o - Avalia√ß√£o de Pipelines

Nesta etapa, experimentamos diferentes configura√ß√µes de `Pipeline` do Oracle AutoMLx com o objetivo de **compreender o comportamento do nosso dataset em tarefas de classifica√ß√£o**, bem como **avaliar o impacto de diferentes escolhas de modelagem** (tipo de modelo, amostragem, sele√ß√£o de features e tuning).

Cada experimento foi desenhado para responder a uma **pergunta espec√≠fica**, evitando combina√ß√µes arbitr√°rias e permitindo interpreta√ß√µes claras dos resultados.

---

##### 1. Baseline Linear ‚Äî Regress√£o Log√≠stica

Geramos inicialmente um modelo baseline de **Regress√£o Log√≠stica**, com pr√©-processamento autom√°tico habilitado e sem t√©cnicas de reamostragem.

Este experimento tem como objetivos:
- Avaliar o qu√£o bem um modelo **linear** consegue capturar o padr√£o de atrasos nos voos;
- Servir como **√¢ncora de interpretabilidade**, uma vez que modelos lineares facilitam a an√°lise do efeito marginal das vari√°veis;
- Estabelecer um **limite inferior de performance** para compara√ß√£o com modelos mais complexos.

---

##### 2. Baseline N√£o Linear ‚Äî LightGBM sem Tuning

Em seguida, treinamos um modelo **LightGBM** utilizando as configura√ß√µes padr√£o, sem ajuste de hiperpar√¢metros e sem amostragem adaptativa.

Este experimento busca:
- Avaliar o ganho de performance ao introduzir **n√£o linearidades e intera√ß√µes entre vari√°veis**;
- Estabelecer um **baseline robusto de modelos baseados em √°rvores**;
- Comparar diretamente com a Regress√£o Log√≠stica para verificar se o problema exige maior capacidade de modelagem.

---

##### 3. Impacto da Amostragem Adaptativa

Mantendo o LightGBM sem tuning, ativamos a funcionalidade de **adaptive sampling** do AutoMLx.

O objetivo deste experimento √©:
- Verificar se a leve despropor√ß√£o entre as classes (‚âà65% / 35%) se beneficia de t√©cnicas de reamostragem;
- Avaliar o impacto da amostragem adaptativa na **capacidade discriminativa global** do modelo (ROC AUC);
- Identificar poss√≠veis trade-offs entre recall da classe minorit√°ria e calibra√ß√£o de probabilidades.

---

##### 4. For√ßando Features Relevantes ao Dom√≠nio

Neste experimento, utilizamos novamente o LightGBM, mas **for√ßando a inclus√£o de vari√°veis consideradas cr√≠ticas pelo conhecimento de dom√≠nio**, como:
- Empresa A√©rea  
- Aer√≥dromo de Origem  
- Aer√≥dromo de Destino  

A motiva√ß√£o √©:
- Avaliar se o mecanismo autom√°tico de sele√ß√£o de features do AutoMLx est√° descartando informa√ß√µes relevantes;
- Testar se a imposi√ß√£o dessas vari√°veis melhora a capacidade de generaliza√ß√£o do modelo;
- Validar a confian√ßa no processo automatizado de feature selection.

---

##### 5. Tuning Leve de Hiperpar√¢metros do LightGBM

Aqui realizamos um **ajuste leve de hiperpar√¢metros** do LightGBM, visando comparar o modelo ajustado com o modelo baseline `2`.  

Este experimento busca responder:
- Se pequenos ajustes em hiperpar√¢metros estruturais (como profundidade, n√∫mero de folhas e taxa de aprendizado) trazem ganhos mensur√°veis;
- Se o custo computacional do tuning √© justific√°vel dado o grande volume de dados;
- Se as configura√ß√µes padr√£o j√° se encontram pr√≥ximas do √≥timo para este problema.

---

##### 6. Modelo de Sanidade ‚Äî Naive Bayes Gaussiano

Por fim, treinamos um modelo **Gaussian Naive Bayes**, que assume independ√™ncia condicional entre as vari√°veis.

Este experimento n√£o visa competir em performance, mas sim:
- Atuar como um **teste de sanidade**;
- Avaliar se o problema pode ser explicado por rela√ß√µes estat√≠sticas simples;
- Confirmar a necessidade de modelos capazes de capturar intera√ß√µes complexas.

---

Ao final desses experimentos, temos uma vis√£o clara sobre:
- A complexidade intr√≠nseca do problema;
- O impacto real de t√©cnicas de automa√ß√£o (sampling, feature selection, tuning);
- O melhor equil√≠brio entre performance, custo computacional e interpretabilidade.

In [None]:
PIPELINE_CONFIGS = {
    # --------------------------------------------------
    # 1) Linear baseline (interpretability anchor)
    # --------------------------------------------------
    "01_baseline_logreg": {
        "task": "classification",
        "model_list": ["LogisticRegression"],
        "preprocessing": True,
        "adaptive_sampling": False,
        "score_metric": "roc_auc",
    },

    # --------------------------------------------------
    # 2) Tree baseline (no tuning, full data)
    # --------------------------------------------------
    "02_baseline_lgbm": {
        "task": "classification",
        "model_list": ["LGBMClassifier"],
        "n_algos_tuned": 1,
        "max_tuning_trials": 1,
        "preprocessing": True,
        "adaptive_sampling": False,
        "score_metric": "roc_auc",
    },

    # --------------------------------------------------
    # 3) Effect of adaptive sampling
    # --------------------------------------------------
    "03_lgbm_with_sampling": {
        "task": "classification",
        "model_list": ["LGBMClassifier"],
        "n_algos_tuned": 1,
        "max_tuning_trials": 1,
        "adaptive_sampling": True,
        "score_metric": "roc_auc",
    },

    # --------------------------------------------------
    # 4) Force domain-important features
    # (tests AutoMLx feature selection behavior)
    # --------------------------------------------------
    "04_lgbm_forced_features": {
        "task": "classification",
        "model_list": ["LGBMClassifier"],
        "n_algos_tuned": 1,
        "max_tuning_trials": 1,
        "min_features": [
            "Empresa A√©rea",
            "Aer√≥dromo Origem",
            "Aer√≥dromo Destino",
        ],
        "adaptive_sampling": False,
        "score_metric": "roc_auc",
    },

    # --------------------------------------------------
    # 5) Light Hyperparameter tuning
    # --------------------------------------------------
    "05_lgbm_light_tuning": {
        "task": "classification",
        "model_list": ["LGBMClassifier"],
        "adaptive_sampling": False,
        "max_tuning_trials": 5,
        "score_metric": "roc_auc",
    },

    # --------------------------------------------------
    # 6) Naive Bayes sanity check
    # --------------------------------------------------
    "06_nb_sanity": {
        "task": "classification",
        "model_list": ["GaussianNB"],
        "preprocessing": True,
        "adaptive_sampling": False,
        "score_metric": "roc_auc",
    },
}


##### Realizando experimenta√ß√£o

Esta funcionalidade permite realizar a experimenta√ß√£o de pipelines conforme as configura√ß√µes contidas no dicion√°rio `PIPELINE_CONFIGS`. Ap√≥s a experimenta√ß√£o, os modelos s√£o salvos em ./models/experimental_models.  

In [None]:
# C√≥digo comentado por seguran√ßa
# Descomente a linha abaixo para executar a experimenta√ß√£o dos pipelines AutoMLx

experimental_models = run_experiments(pipeline_configs=PIPELINE_CONFIGS, X_train=X_train, y_train=y_train)

##### Carregar Modelos Experimentais

Esta funcionalidade permite carregar modelos experimentais previamente treinados e salvos a partir de um dicion√°rio `PIPELINE_CONFIGS`.

In [None]:
experimental_models = load_experimental_models(PIPELINE_CONFIGS)

##### Avaliando Modelos Experimentais

In [None]:
evaluate_experimental_models(
    experimental_models=experimental_models,
    X_test=X_test,
    y_test=y_test,
)

##### Insights

| Experimento           | ROC AUC    | Principal insight                                   |
| --------------------- | ---------- | --------------------------------------------------- |
| baseline_logreg       | ~0.600     | Modelos lineares s√£o insuficientes                  |
| baseline_lgbm         | ~0.686     | Estrutura n√£o linear √© essencial                   |
| lgbm_with_sampling    | ~0.687     | A amostragem adaptativa tem efeito desprez√≠vel     |
| lgbm_forced_features  | ~0.686     | A sele√ß√£o autom√°tica de features do AutoMLx √© confi√°vel |
| lgbm_light_tuning     | **~0.699** | Tuning leve gera ganhos reais de performance        |
| nb_sanity             | ~0.601     | O sinal n√£o √© trivial                               |

Os experimentos realizados fornecem uma vis√£o clara sobre a natureza do problema e sobre as escolhas mais adequadas de modelagem.

- Em primeiro lugar, a compara√ß√£o entre a Regress√£o Log√≠stica e os modelos baseados em √°rvores evidencia que **modelos lineares n√£o s√£o suficientes** para capturar a complexidade do fen√¥meno de atraso de voos. O ganho expressivo de ROC AUC ao utilizar o LightGBM indica a presen√ßa de **rela√ß√µes n√£o lineares e intera√ß√µes relevantes** entre vari√°veis categ√≥ricas, num√©ricas e temporais.

- A avalia√ß√£o do uso de **adaptive sampling** mostrou impacto praticamente nulo na performance global do modelo. Isso sugere que a leve despropor√ß√£o entre as classes (aproximadamente 65% / 35%) n√£o compromete o aprendizado, e que o LightGBM consegue lidar adequadamente com a distribui√ß√£o original dos dados, tornando desnecess√°ria a introdu√ß√£o de t√©cnicas adicionais de reamostragem.

- Ao for√ßar a inclus√£o de vari√°veis consideradas cr√≠ticas pelo conhecimento de dom√≠nio, n√£o observamos melhorias de desempenho. Esse resultado indica que o mecanismo autom√°tico de sele√ß√£o de features do Oracle AutoMLx √© confi√°vel e n√£o est√° descartando informa√ß√µes relevantes, refor√ßando a robustez da abordagem automatizada.

- O ajuste leve de hiperpar√¢metros apresentou ganhos consistentes de performance, elevando o ROC AUC para aproximadamente 0.70. Esse resultado demonstra que, mesmo em um dataset de grande escala, **tuning controlado e bem delimitado** pode trazer benef√≠cios reais, sem incorrer em custos computacionais excessivos ou risco elevado de overfitting.

- Por fim, o desempenho do modelo Naive Bayes, semelhante ao da Regress√£o Log√≠stica e significativamente inferior ao LightGBM, confirma que o problema n√£o √© trivial e n√£o pode ser explicado por rela√ß√µes estat√≠sticas simples entre as vari√°veis. A capacidade de modelar intera√ß√µes complexas √© fundamental para alcan√ßar bons resultados.

- De forma geral, os experimentos indicam que **modelos baseados em √°rvores, com tuning leve e sem reamostragem**, oferecem o melhor equil√≠brio entre performance, robustez e custo computacional para este problema.


#### Pipeline

In [None]:
# est1 = automlx.Pipeline(task='classification', score_metric='recall_macro') # type: ignore
# est1.fit(X_train, y_train)

### Avalia√ß√£o do Modelo

In [None]:
# evaluate_model(est1, X_test, y_test)

### An√°lise do Processo de otimiza√ß√£o do AutoMLx

Nesta se√ß√£o analisamos o processo de otimiza√ß√£o executado pelo AutoMLx de forma a compreender melhor o processo de modelagem e garantir a qualidade do resultado obtido.  

Para mais informa√ß√µes acesse:
- [Documenta√ß√£o do AutoMLx](https://docs.oracle.com/en-us/iaas/tools/automlx/latest/latest/index.html)  
- [Demo: AutoMLx Classification](https://github.com/oracle-samples/automlx/blob/main/demos/OracleAutoMLx_Classification.ipynb)

#### Sum√°rio

Sum√°rio dos experimentos executados pelo AutoMLx.

In [None]:
# est1.print_summary()

#### Visualiza√ß√µes

Cada experimento (`trial`) nos gr√°ficos abaixo √© uma linha em um dataframe que cont√©m:  
Algoritmo, N√∫mero de Amostras, N√∫mero de Features, Hiperpar√¢metros, Score, Tempo de Execu√ß√£o, Uso de Mem√≥ria e Etapa.  

Para saber mais:
- [Acesse as fun√ß√µes](./utils/plot_automl_results.py)  

- Utilize o m√©todo `help()` para cada fun√ß√£o.  
    <small>Exemplo: "help(plot_algorithm_selection)"</small>

##### Sele√ß√£o de Algoritmo

Processo de sele√ß√£o de algoritmo do AutoMLx.
- `Y`: M√©trica
- `X`: Modelo

In [None]:
# plot_algorithm_selection(est1)

##### Sampling Adaptativo

Processo de sele√ß√£o de amostragem do AutoMLx.
- `Y`: M√©trica
- `X`: Tamanho da Amostra

In [None]:
# plot_adaptive_sampling(est1)

##### Sele√ß√£o de Features

Processo de sele√ß√£o de features do AutoMLx.
- `Y`: M√©trica
- `X`: N√∫mero de features

In [None]:
# plot_feature_selection(est1, df.drop(columns=['Atrasado']))

##### Ajuste de Hiperpar√¢metros

Processo de sele√ß√£o de hiperpar√¢metros do AutoMLx.
- `Y`: M√©trica
- `X`: Itera√ß√£o *n*

In [None]:
# plot_model_tuning(est1)

### Exporta√ß√£o do Modelo

Aqui exportamos o modelo em formato `.pkl` para uso em infer√™ncia.

In [None]:
# best_estimator = est1
# model_metadata = {
#     'model': best_estimator.selected_model_,
#     'specifications': best_estimator.selected_model_params_,
#     'features': best_estimator.selected_features_names_,
#     'features_raw': list(set(best_estimator.selected_features_names_raw_)),
# }
# print(model_metadata)

In [None]:
# export_model(best_estimator, filename=f'flight_delay_{model_metadata["model"]}', timestamp=True)

In [None]:
# document_model(best_estimator, model_name=model_metadata['model'], model_metadata=model_metadata, model_features=model_metadata['features_raw'], x=X_test, y=y_test, output_format='.md', timestamp=True)

#### Testando o modelo exportado

In [None]:
model_filename = 'flight_delay_XGBClassifier_20260108_173529.pkl'
# test_model(model_filename, X_test)