# ‚úàÔ∏è FlightOnTime ‚Äî Predi√ß√£o de Atrasos em Voos

O **FlightOnTime** √© um projeto de *Data Science* e *Back-End* voltado para prever a probabilidade de um voo **decolar no hor√°rio ou com atraso**, utilizando dados hist√≥ricos de avia√ß√£o civil.  
Ele faz parte de um desafio educacional cujo objetivo √© construir um **MVP preditivo** capaz de apoiar passageiros, companhias a√©reas e aeroportos na tomada de decis√£o.

## Descri√ß√£o do projeto

### üéØ Objetivo do Projeto

Criar um modelo de classifica√ß√£o bin√°ria que, a partir de informa√ß√µes de um voo ‚Äî como companhia a√©rea, origem, destino, hor√°rio e dist√¢ncia ‚Äî estima se ele ser√° **Pontual (0)** ou **Atrasado (1)**, retornando tamb√©m a probabilidade associada.

---

### üß† Pipeline de Data Science

O notebook conduz as principais etapas do fluxo de ci√™ncia de dados:

1. **ETL e limpeza dos dados**  
   - Carregamento, padroniza√ß√£o e enriquecimento das informa√ß√µes de voos.

2. **Engenharia de vari√°veis (Feature Engineering)**  
   - Extra√ß√£o de atributos relevantes, como:  
     hora do voo, dia da semana, dist√¢ncia, aeroportos, companhia a√©rea.

3. **Modelagem preditiva**  
   - Testes com algoritmos supervisionados (ex.: Logistic Regression, Random Forest).

4. **Avalia√ß√£o do modelo**  
   - M√©tricas como Acur√°cia, Precis√£o, Recall e F1-score.

5. **Exporta√ß√£o do modelo treinado**  
   - Serializa√ß√£o via `joblib` para uso pela API de Back-End.

---

### üõ†Ô∏è Integra√ß√£o com a API

O modelo gerado neste notebook ser√° consumido por uma **API REST em Java (Spring Boot)**, que disponibilizar√° o endpoint:

```
POST /predict
```

Retornando:

```json
{
  "previsao": "Atrasado",
  "probabilidade": 0.78
}
```

---

### üìå Sobre o Dataset

O projeto utiliza um conjunto de dados contendo informa√ß√µes reais de voos, incluindo:

- companhia a√©rea  
- aeroporto de origem e destino  
- data e hor√°rio de partida  
- dist√¢ncia do trecho  
- status de atraso  

As fun√ß√µes de ETL foram previamente desenvolvidas para garantir limpeza, consist√™ncia e rastreabilidade.

## üöÄ In√≠cio do Notebook

A partir daqui, o notebook executa o fluxo completo de prepara√ß√£o, an√°lise e modelagem, resultando em um modelo leve, funcional e pronto para produ√ß√£o no MVP do FlightOnTime.

### Imports Globais

In [1]:
import os
import time
import datetime
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.figure_factory as ff
from sklearn.metrics import classification_report
from sklearn.metrics import ConfusionMatrixDisplay
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_auc_score, confusion_matrix
from utils.utils import parse_categoricals, parse_datetime, parse_int

import automlx
from automlx import init # type: ignore

### Preprocessamento e Carga

Execute as fun√ß√µes abaixo para carregar os dados de fonte local ou para baixar, preprocessar e salvar os dados a partir da base de dados de v√¥os da ANAC (Ag√™ncia Nacional de Avia√ß√£o Civil).  
- Os dados s√£o salvos em ./dados/  
- A fun√ß√£o `processar_dados` acessa toda a base de dados da ANAC a partir de Janeiro/2018 at√© Outubro/2025.

In [2]:
def processar_dados(save: bool = True) -> pd.DataFrame:
    """
    Executa o pipeline completo de ETL dos dados de voos a partir da base de dados de v√¥os da ANAC (Ag√™ncia Nacional de Avia√ß√£o Civil).

    Baixa os arquivos CSV brutos, realiza o pr√©-processamento, consolida os dados
    em um √∫nico DataFrame e salva automaticamente os resultados em formatos
    CSV e Parquet no diret√≥rio ./data/, com versionamento por timestamp.

    Par√¢metros
    ----------
    **save** : bool, opcional
        Indica se o DataFrame resultante deve ser salvo em disco.
        Padr√£o √© True, o que significa que os arquivos ser√£o salvos
        automaticamente.

    Retorna
    -------
    pd.DataFrame
        Dataset consolidado e pr√©-processado.
    """
    from etl.etl import getUrls, preprocess_csvs
        
    urls = getUrls()
    dataset = preprocess_csvs(urls)
    if save:
      from etl.etl import save_df
      save_df(dataset, timestamp=True)

    return dataset   


def carregar_dados(filename: str) -> pd.DataFrame:
    """
    Carrega um dataset de voos previamente pr√©-processado a partir de um arquivo Parquet
    e aplica convers√µes de tipo para colunas categ√≥ricas e de data/hora.

    Par√¢metros
    ----------
    filename : str
        Nome-base do arquivo Parquet localizado em ./data/.
        N√£o inclua a extens√£o ".parquet".

    Retorna
    -------
    pd.DataFrame
        Dataset carregado com colunas categ√≥ricas convertidas para `category`
        e colunas de data/hora convertidas para `datetime`, pronto para an√°lise
        ou modelagem.
    """
    # Fun√ß√£o interna para converter colunas categ√≥ricas
    # def parse_categoricals(df: pd.DataFrame) -> pd.DataFrame:
    #     categorical_columns = [
    #         "Empresa A√©rea",
    #         "C√≥digo Tipo Linha",
    #         "Aer√≥dromo Origem",
    #         "Aer√≥dromo Destino",
    #     ]
    #     for col in categorical_columns:
    #         df[col] = df[col].astype('category')
        
    #     return df
    
    # # Fun√ß√£o interna para converter colunas de data/hora
    # def parse_datetime(df: pd.DataFrame) -> pd.DataFrame:
    #     datetime_columns = [
    #         "Data Hora Voo",
    #     ]
    #     for col in datetime_columns:
    #         df[col] = pd.to_datetime(df[col], format="mixed", dayfirst=True, errors='coerce')
        
    #     return df
    
    filepath = f'{os.getcwd()}/data/{filename}.parquet'
    print(f"Carregando dataset local de: ./data/{filename}.parquet")
    dataset = pd.read_parquet(filepath)
    dataset = parse_categoricals(dataset)
    dataset = parse_datetime(dataset)
    dataset = parse_int(dataset)
    print("üèÅ Dataset carregado com sucesso!")

    return dataset

#### Preprocessar com origem externa

Baixa e executa o preprocessamento em tempo de execu√ß√£o atrav√©s da base de dados abertos da ANAC.  
Link: https://sistemas.anac.gov.br/dadosabertos/Voos%20e%20opera%C3%A7%C3%B5es%20a%C3%A9reas/Voo%20Regular%20Ativo%20%28VRA%29/  

Para mais informa√ß√µes sobre o processo, consulte a documenta√ß√£o do m√≥dulo etl.

In [3]:
# C√≥digo comentado por seguran√ßa
# Descomente a linha abaixo para executar o pipeline ETL completo

df = processar_dados()

Iniciando o download e preprocessamento de 94 arquivos CSV...

[1/94] Carregando: http://.../2018/01%20-%20Janeiro/VRA_20181.csv
‚úî 25790 linhas carregadas.
   Total atual de linhas: 25790
   Mem√≥ria usada: 0.44 MB

[2/94] Carregando: http://.../2018/02%20-%20Fevereiro/VRA_20182.csv
‚úî 29722 linhas carregadas.
   Total atual de linhas: 55512
   Mem√≥ria usada: 0.94 MB

[3/94] Carregando: http://.../2018/03%20-%20Mar%C3%A7o/VRA_20183.csv
‚úî 42401 linhas carregadas.
   Total atual de linhas: 97913
   Mem√≥ria usada: 1.65 MB

[4/94] Carregando: http://.../2018/04%20-%20Abril/VRA_20184.csv
‚úî 63150 linhas carregadas.
   Total atual de linhas: 161063
   Mem√≥ria usada: 2.82 MB

[5/94] Carregando: http://.../2018/05%20-%20Maio/VRA_20185.csv
‚úî 0 linhas carregadas.
   Total atual de linhas: 161063
   Mem√≥ria usada: 2.82 MB

[6/94] Carregando: http://.../2018/06%20-%20Junho/VRA_20186.csv
‚úî 0 linhas carregadas.
   Total atual de linhas: 161063
   Mem√≥ria usada: 2.82 MB

[7/94] Carrega

#### Preprocessar com origem local

Exemplo de nome de arquivo local:  
```python
filename = "dados_voos_20250101_153000"
```

- N√£o necessita informar o caminho do arquivo e extens√£o.  
- Caminho default: ./data
- Extens√£o default: .parquet

In [4]:
filename = "dados_voos_20260103_220419"
df = carregar_dados(filename=filename)

Carregando dataset local de: ./data/dados_voos_20260103_220419.parquet
üèÅ Dataset carregado com sucesso!


#### Visualiza√ß√µes

In [5]:
df.head()

Unnamed: 0,Empresa A√©rea,C√≥digo Tipo Linha,Aer√≥dromo Origem,Aer√≥dromo Destino,Dist√¢ncia (m),Data Hora Voo,Atrasado
0,AZU,R,SBRF,SBMO,181000,2018-01-01 13:50:00,0
1,AZU,R,SBCF,SBBR,591000,2018-01-01 17:30:00,0
2,AZU,R,SBCF,SBPA,1362000,2018-01-01 21:35:00,1
3,AZU,N,SBCY,SBPV,1145000,2018-01-01 12:15:00,0
4,AZU,N,SBPV,SBCY,1145000,2018-01-01 14:40:00,0


##### Verificando o tamanho do dataframe

In [6]:
df.shape

(3960369, 7)

##### Verificando os tipos das colunas

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3960369 entries, 0 to 3960368
Data columns (total 7 columns):
 #   Column             Dtype         
---  ------             -----         
 0   Empresa A√©rea      category      
 1   C√≥digo Tipo Linha  category      
 2   Aer√≥dromo Origem   category      
 3   Aer√≥dromo Destino  category      
 4   Dist√¢ncia (m)      int32         
 5   Data Hora Voo      datetime64[ns]
 6   Atrasado           int8          
dtypes: category(4), datetime64[ns](1), int32(1), int8(1)
memory usage: 71.8 MB


#### Refinar ETL

In [8]:
def check_nulls(df: pd.DataFrame, col: str) -> None:
    nulls_notice = f'Coluna "{col}" possui {df[col].isna().sum()} valores nulos.'
    print(nulls_notice)
    return

def check_uniques(df: pd.DataFrame, col: str) -> None:
    print(f'Coluna "{col}":')
    print(f'{df[col].unique()}\n')
    return

##### Verificando Nulos

In [9]:
for col in df.columns:
    check_nulls(df, col)

Coluna "Empresa A√©rea" possui 0 valores nulos.
Coluna "C√≥digo Tipo Linha" possui 0 valores nulos.
Coluna "Aer√≥dromo Origem" possui 0 valores nulos.
Coluna "Aer√≥dromo Destino" possui 0 valores nulos.
Coluna "Dist√¢ncia (m)" possui 0 valores nulos.
Coluna "Data Hora Voo" possui 0 valores nulos.
Coluna "Atrasado" possui 0 valores nulos.


##### Verificando Uniques

In [10]:
for col in df.columns:
    check_uniques(df, col)

Coluna "Empresa A√©rea":
['AZU', 'GLO', 'ONE', 'TAM', 'PTB', ..., 'SID', 'IPM', 'OMI', 'ASO', 'ACN']
Length: 16
Categories (16, object): ['ACN', 'AMS', 'ASO', 'AZU', ..., 'SID', 'SUL', 'TAM', 'TTL']

Coluna "C√≥digo Tipo Linha":
['R', 'N']
Categories (2, object): ['N', 'R']

Coluna "Aer√≥dromo Origem":
['SBRF', 'SBCF', 'SBCY', 'SBPV', 'SBCA', ..., 'SSBL', 'SNSS', 'SN6L', 'SNLN', 'SDOW']
Length: 220
Categories (220, object): ['SBAC', 'SBAE', 'SBAQ', 'SBAR', ..., 'SWPY', 'SWTP', 'SWTS', 'SWYN']

Coluna "Aer√≥dromo Destino":
['SBMO', 'SBBR', 'SBPA', 'SBPV', 'SBCY', ..., 'SSBL', 'SN6L', 'SNSS', 'SNLN', 'SDOW']
Length: 219
Categories (219, object): ['SBAC', 'SBAE', 'SBAQ', 'SBAR', ..., 'SWPY', 'SWTP', 'SWTS', 'SWYN']

Coluna "Dist√¢ncia (m)":
[ 181000  591000 1362000 1145000 2454000  439000  649000  874000  533000
  627000  338000  363000 2620000 2106000  960000 1480000  343000  515000
  441000  496000 1692000 1122000 1186000  866000  914000  253000 1654000
  225000 1016000  845000  296000 

#### Engenharia de Features

Nesta se√ß√£o transformamos a coluna `Data Hora Voo` em features separadas:
- `Data do Voo` *datetime64[ns]*  
    - Data em que o v√¥o ocorreu.  

- `Horario_min` *int16*  
    - Hor√°rio do dia em que o v√¥o ocorreu em *minutos*.  
    *0 = 00:00, 1439 = 23:59*
- `Dia da Semana` *int8*  
    - Dia da semana em que o v√¥o ocorreu.  
    *0 = Segunda, 6 = Domingo* 

Por fim, eliminamos a original `Data Hora Voo`.

##### Data do V√¥o

In [None]:
# Ativa o modo copy-on-write do pandas para evitar SettingWithCopyWarning
# pd.options.mode.copy_on_write = True

# df['Data do Voo'] = df['Data Hora Voo'].dt.date
# df['Data do Voo'] = pd.to_datetime(df['Data do Voo'], dayfirst=True, errors='coerce') # Transforma em Datetime

##### Hor√°rio do V√¥o

In [None]:
# 0 = 0:00, 1439 = 23:59
# df['Horario_min'] = (
#     df['Data Hora Voo'].dt.hour * 60 + # type: ignore
#     df['Data Hora Voo'].dt.minute # type: ignore
# ).astype('int16')

##### Dia da Semana

In [None]:
# 0 = Segunda, 6 = Domingo
# df['Dia da Semana'] = df['Data Hora Voo'].dt.weekday.astype('int8') # type: ignore

In [None]:
df.shape

#### Visualizando (Y)

Aqui analisamos a distribui√ß√£o dos v√¥os atrasados no hist√≥rico de v√¥os observados.  

- Aproximadamente 6.7 milh√µes de v√¥os foram pontuais.  
- Aproximadamente 3.7 milh√µes de v√¥os atrasaram, totalizando aproximadamente 35.45% dos v√¥os observados.  

In [None]:
from utils.plot_feature import plot_feature
print(df['Atrasado'].value_counts())
print(df['Atrasado'].value_counts(normalize=True))
plot_feature(df, 'Atrasado')

#### Separando X e Y

Aqui separaremos as features (X) da vari√°vel alvo (Y).

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    df.drop(columns=['Atrasado']),
    df['Atrasado'],
    test_size=0.3,
    random_state=42,
)

X_train.shape, X_test.shape, y_train.shape, y_test.shape

In [None]:
X_train.head()

In [None]:
y_train.head()

#### Modelagem

Para o processo de modelagem, decidimos usar a moderna biblioteca [Oracle AutoMLx](https://docs.oracle.com/en-us/iaas/tools/automlx/latest/latest/index.html), que automatiza os processos de `Sele√ß√£o de Algoritmo`, `Sampling Adaptativo`, `Sele√ß√£o de Features` e `Ajuste de Hiperpar√¢metros`, resultando num processo facilitado e com melhores m√©tricas no modelo final.  

In [None]:
init(engine='local')

##### Refer√™ncia de Pipeline:
Deletar depois **

```python
custom_pipeline = automlx.Pipeline(
    task='classification',
    model_list=[                 # Specify the models you want the AutoMLx to consider
        'LogisticRegression',
        'LGBMClassifier',
        'GaussianNB'
    ],
    n_algos_tuned=2,             # Choose how many models to tune
    min_features=[               # Specify minimum features to force the model to use. It can take 3 possible types of values:
        'native-country',        # If int, 0 < min_features <= n_features,
        'marital-status',              # If float, 0 < min_features <= 1.0, 1.0 means disabling feature selection
        'education-num'          # If list, names of features to keep, for example ['a', 'b'] means keep features 'a' and 'b'
    ],
    adaptive_sampling=False,     # Disable or enable Adaptive Sampling step. Default to `True`
    preprocessing=True,          # Disable or enable Preprocessing step. Default to `True`
    search_space={               # You can specify the hyper-parameters and ranges we search
        'LGBMClassifier': {
            'learning_rate': {'range': [0.01, 10], 'type': 'continuous'},
            'boosting_type': {'range': ['gbdt', 'dart'], 'type': 'categorical'},
        },
    },
    max_tuning_trials=2,         # The maximum number of tuning trials. Can be integer or Dict (max number for each model)
    score_metric='f1_macro',     # Any scikit-learn metric or a custom function
)

est1 = custom_pipeline.fit(
    X_train,
    y_train,
    # X_val,
    # y_val,
    time_budget= 20,    # Specify time budget in seconds
    cv='auto'           # Automatically pick a good cross-validation (cv) strategy for the user's dataset.
                        # Ignored if X_valid and y_valid are provided.
                        # Can also be:
                        #   - An integer (For example, to use 5-fold cross validation)
                        #   - A list of data indices to use as splits (for advanced, such as time-based splitting)
)
```

##### Custom Pipeline

In [None]:
# Refer√™ncia de Pipeline:
# Deletar depois **

# custom_pipeline = automlx.Pipeline(
#     task='classification',
#     model_list=[                 # Specify the models you want the AutoMLx to consider
#         'LogisticRegression',
#         'LGBMClassifier',
#         'GaussianNB'
#     ],
#     n_algos_tuned=2,             # Choose how many models to tune
#     min_features=[               # Specify minimum features to force the model to use. It can take 3 possible types of values:
#         'native-country',        # If int, 0 < min_features <= n_features,
#         'marital-status',              # If float, 0 < min_features <= 1.0, 1.0 means disabling feature selection
#         'education-num'          # If list, names of features to keep, for example ['a', 'b'] means keep features 'a' and 'b'
#     ],
#     adaptive_sampling=False,     # Disable or enable Adaptive Sampling step. Default to `True`
#     preprocessing=True,          # Disable or enable Preprocessing step. Default to `True`
#     search_space={               # You can specify the hyper-parameters and ranges we search
#         'LGBMClassifier': {
#             'learning_rate': {'range': [0.01, 10], 'type': 'continuous'},
#             'boosting_type': {'range': ['gbdt', 'dart'], 'type': 'categorical'},
#         },
#     },
#     max_tuning_trials=2,         # The maximum number of tuning trials. Can be integer or Dict (max number for each model)
#     score_metric='f1_macro',     # Any scikit-learn metric or a custom function
# )

# est1 = custom_pipeline.fit(
#     X_train,
#     y_train,
#     # X_val,
#     # y_val,
#     time_budget= 20,    # Specify time budget in seconds
#     cv='auto'           # Automatically pick a good cross-validation (cv) strategy for the user's dataset.
#                         # Ignored if X_valid and y_valid are provided.
#                         # Can also be:
#                         #   - An integer (For example, to use 5-fold cross validation)
#                         #   - A list of data indices to use as splits (for advanced, such as time-based splitting)
# )

##### Default Pipeline

In [None]:
# est1 = automlx.Pipeline(task='classification', score_metric='recall') # type: ignore
# est1.fit(X_train, y_train)

In [None]:
y_proba = est1.predict_proba(X_test)
score_default = roc_auc_score(y_test, y_proba[:, 1])

print(f'Roc_auc score em dados de teste: {score_default}')

#### An√°lise do Processo de otimiza√ß√£o do AutoMLx

Nesta se√ß√£o analisamos o processo de otimiza√ß√£o executado pelo AutoMLx de forma a compreender melhor o processo de modelagem e garantir a qualidade do resultado obtido.  

Para mais informa√ß√µes acesse:
- [Documenta√ß√£o do AutoMLx](https://docs.oracle.com/en-us/iaas/tools/automlx/latest/latest/index.html)  
- [Demo: AutoMLx Classification](https://github.com/oracle-samples/automlx/blob/main/demos/OracleAutoMLx_Classification.ipynb)

##### Sum√°rio

In [None]:
est1.print_summary()

##### Sele√ß√£o de Algoritmo

In [None]:
# Each trial is a row in a dataframe that contains
# Algorithm, Number of Samples, Number of Features, Hyperparameters, Score, Runtime, Memory Usage, Step as features
trials = est1.completed_trials_summary_[est1.completed_trials_summary_["Step"].str.contains('Model Selection')]
name_of_score_column = f"Score ({est1._inferred_score_metric[0].name})"
trials.replace([np.inf, -np.inf], np.nan, inplace=True)
trials.dropna(subset=[name_of_score_column], inplace = True)
scores = trials[name_of_score_column].tolist()
models = trials['Algorithm'].tolist()
colors = []

y_margin = 0.10 * (max(scores) - min(scores))
s = pd.Series(scores, index=models).sort_values(ascending=False)
s = s.dropna()
for f in s.keys():
    if f.strip()  ==  est1.selected_model_.strip():
        colors.append('orange')
    elif s[f] >= s.mean():
        colors.append('teal')
    else:
        colors.append('turquoise')

fig, ax = plt.subplots(1)
ax.set_title("Algorithm Selection Trials")
ax.set_ylim(min(scores) - y_margin, max(scores) + y_margin)
ax.set_ylabel(est1._inferred_score_metric[0].name)
s.plot.bar(ax=ax, color=colors, edgecolor='black')
ax.axhline(y=s.mean(), color='black', linewidth=0.5)
plt.show()
plt.close()

##### Sampling Adaptativo

In [None]:
# Each trial is a row in a dataframe that contains
# Algorithm, Number of Samples, Number of Features, Hyperparameters, Score, Runtime, Memory Usage, Step as features
trials = est1.completed_trials_summary_[est1.completed_trials_summary_["Step"].str.contains('Adaptive Sampling')]
trials.replace([np.inf, -np.inf], np.nan, inplace=True)
trials.dropna(subset=[name_of_score_column], inplace = True)
scores = trials[name_of_score_column].tolist()
n_samples = [int(sum(d.values()) / len(d)) if isinstance(d, dict) else d for d in trials['# Samples']]


y_margin = 0.10 * (max(scores) - min(scores))
fig, ax = plt.subplots(1)
ax.set_title("Adaptive Sampling ({})".format(est1.selected_model_))
ax.set_xlabel('Dataset sample size')
ax.set_ylabel(est1._inferred_score_metric[0].name)
ax.grid(color='g', linestyle='-', linewidth=0.1)
ax.set_ylim(min(scores) - y_margin, max(scores) + y_margin)
ax.plot(n_samples, scores, 'k:', marker="s", color='teal', markersize=3)
plt.show()
plt.close()

##### Sele√ß√£o de Features

In [None]:
print(f"Features selected: {est1.selected_features_names_}")
dropped_features = df.drop(est1.selected_features_names_raw_, axis=1).columns
print(f"Features dropped: {dropped_features.to_list()}")

# Each trial is a row in a dataframe that contains
# Algorithm, Number of Samples, Number of Features, Hyperparameters, Score, Runtime, Memory Usage, Step as features
trials = est1.completed_trials_summary_[est1.completed_trials_summary_["Step"].str.contains('Feature Selection')]
trials.replace([np.inf, -np.inf], np.nan, inplace=True)
trials.dropna(subset=[name_of_score_column], inplace = True)
trials.sort_values(by=['# Features'],ascending=True, inplace = True)
scores = trials[name_of_score_column].tolist()
n_features = trials['# Features'].tolist()

y_margin = 0.10 * (max(scores) - min(scores))
fig, ax = plt.subplots(1)
ax.set_title("Feature Selection Trials")
ax.set_xlabel("Number of Features")
ax.set_ylabel(est1._inferred_score_metric[0].name)
ax.grid(color='g', linestyle='-', linewidth=0.1)
ax.set_ylim(min(scores) - y_margin, max(scores) + y_margin)
ax.plot(n_features, scores, 'k:', marker="s", color='teal', markersize=3)
ax.axvline(x=len(est1.selected_features_names_), color='orange', linewidth=2.0)
plt.show()
plt.close()

##### Ajuste de Hiperpar√¢metros

In [None]:
# Each trial is a row in a dataframe that contains
# Algorithm, Number of Samples, Number of Features, Hyperparameters, Score, Runtime, Memory Usage, Step as features
trials = est1.completed_trials_summary_[est1.completed_trials_summary_["Step"].str.contains('Model Tuning')]
trials.replace([np.inf, -np.inf], np.nan, inplace=True)
trials.dropna(subset=[name_of_score_column], inplace = True)
trials.drop(trials[trials['Finished'] == -1].index, inplace = True)
trials['Finished']= trials['Finished'].apply(lambda x: time.mktime(datetime.datetime.strptime(x,
                                             "%a %b %d %H:%M:%S %Y").timetuple()))
trials.sort_values(by=['Finished'],ascending=True, inplace = True)
scores = trials[name_of_score_column].tolist()
score = []
score.append(scores[0])
for i in range(1,len(scores)):
    if scores[i]>= score[i-1]:
        score.append(scores[i])
    else:
        score.append(score[i-1])
y_margin = 0.10 * (max(score) - min(score))

fig, ax = plt.subplots(1)
ax.set_title("Hyperparameter Tuning Trials")
ax.set_xlabel("Iteration $n$")
ax.set_ylabel(est1._inferred_score_metric[0].name)
ax.grid(color='g', linestyle='-', linewidth=0.1)
ax.set_ylim(min(score) - y_margin, max(score) + y_margin)
ax.plot(range(1, len(trials) + 1), score, 'k:', marker="s", color='teal', markersize=3)
plt.show()
plt.close()

##### Matriz de Confus√£o

In [None]:
y_pred = est1.predict(X_test)
cm = confusion_matrix(y_test.astype(int), y_pred, labels=[False, True])
cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]

disp = ConfusionMatrixDisplay(
    confusion_matrix=cm,
    display_labels=["N√£o Atrasou", "Atrasou"]
)

print(classification_report(y_test, y_pred))
disp.plot(cmap="viridis")

In [None]:
(0.77 + 0.58) / 2