# Desafío de predicción de retrasos de vuelos

## Desafío

El problema consiste en predecir la probabilidad de retraso de los vuelos que aterrizan o despegan del aeropuerto de Santiago de Chile (SCL).

### Conjunto de datos

El conjunto de datos contiene la siguiente información:

| Columna       | Descripción                       |   Clase       | Tipo       | Ejemplo             | Commentari      |
|---------------|-----------------------------------|---------------|------------|---------------------|-----------------|
| **Fecha-I**   | Fecha y hora del vuelo            | Programada    | datetime   | 2017-01-01 23:30:00 |                 |
| **Vlo-I**     | Número de vuelo                   | Programada    | string     | 226                 |                 |
| **Ori-I**     | Código de la ciudad de origen     | Programada    | string     | SCEL                |                 |
| **Des-I**     | Código de la ciudad de destino    | Programada    | string     | KMIA                |                 |
| **Emp-I**     | Código de la aerolínea            | Programada    | string     | AAL                 |                 |
| **Fecha-O**   | Fecha y hora del vuelo            | Operación     | datetime   | 2017-01-01 23:33:00 |                 |
| **Vlo-O**     | Número de vuelo                   | Operación     | string     | 226                 |                 |
| **Ori-O**     | Código de la ciudad de origen     | Operación     | string     | SCEL                |                 |
| **Des-O**     | Código de la ciudad de destino    | Operación     | string     | KMIA                |                 |
| **Emp-O**     | Código de la aerolínea            | Operación     | string     | AAL                 |                 |
| **DIA**       | Día del mes                       | Operación     | integer    | 1                   | 1 - 31          |
| **MES**       | Número de mes                     | Operación     | integer    | 1                   | 1 - 12          |
| **AÑO**       | Año                               | Operación     | integer    | 2017                | 2017 - 2018     |
| **DIANOM**    | Día de la semana                  | Operación     | string     | Domingo             | Lunes - Domingo |
| **TIPOVUELO** | Tipo de vuelo                     |     -         | string     | I                   | I, N            |
| **OPERA**     | Nombre de la aerolínea            | Operación     | string     | American Airlines   |                 |
| **SIGLAORI**  | Nombre de la ciudad de origen     |     -         | string     | Santiago            |                 |
| **SIGLADES**  | Nombre de la ciudad de destino    |     -         | string     | Miami               |                 |


### Características sintéticas

Las características sintéticas generadas contienen la siguiente información y están disponibles en el archivo `synthetic_features.csv`:

| Columna            | Descripción                                                                                                             | Tipo       | Ejemplo     | Comentario           |
|--------------------|-------------------------------------------------------------------------------------------------------------------------|------------|-------------|----------------------|
| **temporada_alta** | `1` si el vuelo es entre `15-Dec` y `3-Mar`, o `15-Jul` y `31-Jul`, o `11-Sep` y `30-Sep`, `0` si no.                   | integer    | 1           | 0, 1                 |
| **dif_min**        | Diferencia en minutos entre `Fecha-O` y `Fecha-I`.                                                                      | float      | 3           |                      |
| **atraso_15**      | `1` si `dif_min > 15`, `0` si no.                                                                                       | integer    | 0           | 0, 1                 |
| **periodo_dia**    | Mañana (entre `5:00` y `11:59`), Tarde (entre `12:00` y `18:59`) y Noche (entre `19:00` y `4:59`), en base a `Fecha-I`. | string     | tarde       | mañana, tarde, noche |


### Objetivo 

La columna objetivo (`'atraso_15'`) es una variable binaria, cuyo valor es `1` si el _atraso_ del vuelo es mayor que `15 minutos` y `0` si no.

- **NOTA:** La columna `'dif_min'` es utilizada para crear la columna objetivo `'atraso_15'`

- **NOTA:** Las columnas `Operación` no están disponibles en el momento de la inferencia.


### Consideraciones y comentarios

Una vez que se haya realizado el análisis exploratorio y se hayan generado las columnas adicionales, se pueden entrenar distintos modelos para predecir la probabilidad de atraso de un vuelo. Algunas opciones podrían ser modelos de regresión logística, árboles de decisión o redes neuronales. Para elegir el modelo adecuado, es importante evaluar la performance de cada uno de ellos utilizando alguna métrica de evaluación, como la precisión o el AUC (Area Under the Curve). También es importante tener en cuenta la capacidad de interpretabilidad del modelo, es decir, la facilidad para entender cómo toman las decisiones y qué variables son las que más influyen en la predicción.

Para evaluar la performance del modelo, se pueden utilizar métricas como la precisión, el recall, el F1-score y el AUC. La precisión mide la proporción de predicciones correctas sobre el total de predicciones realizadas, el recall mide la proporción de casos positivos correctamente identificados sobre el total de casos positivos, el F1-score es la media armónica entre la precisión y el recall y el AUC mide la capacidad del modelo para diferenciar entre casos positivos y negativos.

Es importante tener en cuenta que cada métrica puede ser más relevante dependiendo del contexto y de los objetivos del modelo. Por ejemplo, si es importante minimizar los falsos negativos (predicciones incorrectas de casos positivos), el recall puede ser una métrica más adecuada para evaluar el modelo. Por otro lado, si es importante minimizar tanto los falsos positivos como los falsos negativos, el F1-score puede ser una buena opción.

Para mejorar la performance del modelo, algunas opciones podrían ser: ajustar los hiperparámetros del modelo, realizar una selección de variables más adecuada, utilizar técnicas de preprocesamiento de datos como la normalización o la estandarización, o complementar con variables externas que puedan ser relevantes para la predicción de atrasos (por ejemplo, datos meteorológicos o de tráfico aéreo).

Además, es importante tener en cuenta que es posible que haya desbalance en la distribución de casos positivos y negativos en el dataset, lo que puede afectar la performance del modelo. En este caso, se pueden utilizar técnicas para tratar este desbalance, como el muestreo balanceado o la asignación de pesos a las distintas clases en el proceso de entrenamiento del modelo.

Otra opción para mejorar la performance del modelo es realizar una validación cruzada, que consiste en dividir el dataset en distintos conjuntos de entrenamiento y validación y evaluar el modelo en cada uno de ellos. De esta manera, se puede obtener una estimación más precisa de la performance del modelo y detectar posibles problemas de sobreajuste.

En resumen, para resolver el problema planteado, es importante realizar un análisis exploratorio de los datos y generar las columnas adicionales solicitadas. Luego, se pueden entrenar distintos modelos y evaluar su performance utilizando métricas como la precisión, el recall, el F1-score y el AUC. Para mejorar la performance del modelo, se pueden ajustar los hiperparámetros, realizar una selección de variables adecuada, utilizar técnicas de preprocesamiento de datos y realizar una validación cruzada. También es importante tener en cuenta el desbalance en la distribución de clases y utilizar técnicas para tratarlo.

Otra opción para mejorar la performance del modelo es utilizar técnicas de ensembling, que consisten en combinar el resultado de distintos modelos para obtener una predicción final. Algunas opciones de ensembling son:
- Bagging: consiste en entrenar varios modelos de manera independiente y promediar o votar sus predicciones.
- Boosting: consiste en entrenar varios modelos de manera secuencial, en los que cada modelo trata de corregir los errores del modelo anterior.
- Stacking: consiste en entrenar varios modelos y utilizarlos como features para un modelo final, que realiza la predicción final.

Utilizar técnicas de ensembling puede mejorar la performance del modelo al reducir la varianza y el sesgo, ya que cada modelo puede complementar al otro y compensar sus posibles debilidades.

Por último, es importante tener en cuenta que la performance del modelo puede depender de la calidad y cantidad de los datos disponibles. Es posible que sea necesario complementar el dataset con variables externas o recopilar más datos para tener una mejor representatividad y poder hacer predicciones más precisas. Además, es importante verificar la integridad y consistencia de los datos y realizar una limpieza y preprocesamiento adecuado antes de entrenar el modelo.

En resumen, para resolver el problema de predecir la probabilidad de atraso de vuelos que aterrizan o despegan del aeropuerto de Santiago de Chile, es importante seguir los siguientes pasos:

1. Realizar un análisis exploratorio de los datos para conocer la distribución y características de los mismos.
2. Generar las columnas adicionales solicitadas utilizando la librería pandas de Python.
3. Conocer la tasa de atraso por destino, aerolínea, mes del año, día de la semana, temporada y tipo de vuelo, utilizando gráficos y tablas de frecuencia.
4. Entrenar uno o varios modelos de regresión logística, árboles de decisión o redes neuronales, y evaluar su performance utilizando métricas como la precisión, el recall, el F1-score y el AUC.
5. Mejorar la performance del modelo ajustando los hiperparámetros, realizando una selección de variables adecuada, utilizando técnicas de preprocesamiento de datos y realizando una validación cruzada.
6. Considerar utilizar técnicas de ensembling para combinar el resultado de distintos modelos y obtener una predicción final más precisa.
7. Verificar la calidad y cantidad de los datos disponibles y complementar el dataset con variables externas o recopilar más datos si es necesario. Realizar una limpieza y preprocesamiento adecuado de los datos antes de entrenar el modelo.

Es importante tener en cuenta que el proceso de modelado y evaluación debe ser iterativo y continuo, ya que puede ser necesario realizar ajustes y mejoras en el modelo para obtener una performance óptima. Además, es importante considerar los objetivos y el contexto en el que se va a utilizar el modelo, ya que esto puede afectar la elección de las métricas de evaluación y las técnicas utilizadas para mejorar la performance.

Como continuación del proceso de modelado y evaluación, una vez que se haya seleccionado el modelo que mejor performance tenga, es importante realizar una evaluación final del modelo utilizando un conjunto de datos que no haya sido utilizado para el entrenamiento y la validación. Esto permite tener una estimación más precisa de la performance del modelo en datos "nuevos" y verificar si se mantiene la capacidad de generalización del modelo.

Además, es importante realizar un monitoreo continuo del modelo una vez que esté en producción, ya que es posible que la performance del mismo vaya deteriorándose con el tiempo debido a cambios en los datos o en el contexto en el que se utiliza. En este caso, puede ser necesario realizar actualizaciones o mejoras en el modelo para mantener su performance óptima.

En resumen, el proceso de modelado y evaluación de un modelo de machine learning para predecir la probabilidad de atraso de vuelos incluye: análisis exploratorio de los datos, generación de columnas adicionales, conocimiento de la tasa de atraso por distintas variables, entrenamiento y evaluación de modelos, mejora de la performance del modelo, evaluación final del modelo con datos "nuevos" y monitoreo continuo del modelo una vez que esté en producción.

Una vez que se haya entrenado y evaluado el modelo para predecir la probabilidad de atraso de vuelos, es importante tener en cuenta que el modelo debe ser utilizado de manera responsable y ética. Esto incluye considerar posibles sesgos o discriminación que puedan estar presentes en los datos o en el modelo, y tomar medidas para minimizarlos o eliminarlos.

También es importante tener en cuenta que el modelo es una herramienta y no debe ser utilizado de manera aislada para tomar decisiones, sino que debe ser considerado junto con otros factores y consideraciones relevantes. Además, es importante garantizar la transparencia y explicabilidad del modelo, especialmente en contextos en los que pueda tener impacto en la toma de decisiones o en la vida de las personas.

En resumen, es importante utilizar el modelo de manera responsable y ética, considerando posibles sesgos o discriminación y tomando medidas para minimizarlos o eliminarlos, y utilizando el modelo como una herramienta junto con otros factores relevantes. También es importante garantizar la transparencia y explicabilidad del modelo.

## Importación de librerías y configuración del entorno

In [None]:
%%javascript
IPython.OutputArea.prototype._should_scroll = function(lines) {
    return false;  // disable vertical scrolling for all cells
}

In [None]:
# Run the following command to get a link and token to the notebooks
# !jupyter notebook list

In [None]:
# %matplotlib inline

In [None]:
import warnings

warnings.filterwarnings('ignore')  # isort:skip

import logging
import pprint

from IPython.display import display
from IPython.display import HTML
from IPython.display import Markdown
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import plotly.express as px
import plotly.offline as pyo
import seaborn as sns
from tqdm.auto import tqdm

from neuralworks.charts import plot_delay_ratios
from neuralworks.constants import get_custom_plotly_figure_size
from neuralworks.constants import get_reports_dir_path
from neuralworks.constants import get_synthetic_features_file_path
from neuralworks.data import create_synthetic_features
from neuralworks.data import load_data
from neuralworks.data import make_pretty
from neuralworks.data import save_synthetic_features_to_file
from neuralworks.data import summary
from neuralworks.data import TABLE_STYLES
from neuralworks.report import generate_profile_report

logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
)

# # CONFIGURE NOTEBOOK
# # Increase the width of the output of the current notebook
# display(Markdown('<style>.container { width:100% !important; }</style>'))
# display(HTML('<style>.container { width:100% !important; }</style>'))
# display(HTML('<style>.output_result { max-width:100% !important; }</style>'))
# display(HTML('<style>.prompt { display:none !important; }</style>'))
# display(HTML('<style>.output_subarea { max-width:100% !important; }</style>'))

# CONFIGURE MATPLOTLIB
# Set the default figure size for matplotlib
plt.rcParams['figure.figsize'] = (12, 8)  # (20, 10)

# CONFIGURE PANDAS DISPLAY OPTIONS
# set the maximum number of rows and columns to display
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
# set the maximum number of characters to display in a column
pd.set_option('display.max_colwidth', 100)
# set the default column width in the DataFrame repr
pd.set_option('display.width', 1000)
# suppress scientific notation for floats (e.g. 1e-05 -> 0.00001, 1e+05 -> 100000)
# display 3 decimal places for floats (e.g. 0.123456 -> 0.123)
# do not display decimal places for integers or if the value is 0 (e.g. 0.000 -> 0, 1.000 -> 1)
pd.set_option('display.float_format', lambda x: '%.3f' % x if x != 0 and x % 1 else '%.0f' % x)  # pylint: disable=consider-using-f-string

# CONFIGURE PANDAS PLOTTING OPTIONS
# set the pandas plotting backend
# NOTE: 'plotly' plotting backend is not compatible with pandas-profiling
# Set pandas plotting backend to 'plotly' (https://plotly.com/python/pandas-backend/) for interactive plots in Jupyter Notebook (https://plotly.com/python/plotly-express/).
# NOTE: 'plotly' plotting backend is not compatible with pandas-profiling, so set it back to 'matplotlib' before generating a profile report and then set it back to 'plotly' after generating the profile report.
pd.set_option('plotting.backend', 'matplotlib')
# pd.options.plotting.backend = 'matplotlib'

# CONFIGURE PLOTLY
# Set notebook mode to work in offline
pyo.init_notebook_mode(connected=False)

# CONFIGURE TQDM
# Register `pandas.progress_apply` and `pandas.Series.map_apply` with `tqdm`
# (can use `tqdm.gui.tqdm`, `tqdm.notebook.tqdm`, optional kwargs, etc.)
tqdm.pandas()

# CONFIGURE SEABORN
# set seaborn style
sns.set_theme(style='whitegrid')
# sns.set_style("darkgrid")
sns.mpl.rc("figure", figsize=(8, 8))  # (20, 10)  # (16, 9)

# https://pandas-profiling.ydata.ai/docs/master/pages/getting_started/installation.html

CUSTOM_PLOTLY_FIGURE_SIZE = get_custom_plotly_figure_size()

## Carga de datos

In [None]:
# load data
df = load_data()
# summary(df, name='original data')

# first rows of the dataframe
df.head(10)

## Creación de características sintéticas

In [None]:
# create synthetic features
sf = create_synthetic_features(df)
# summary(sf, name='synthetic features')

# first rows of the dataframe
sf.head(10)

In [None]:
# save synthetic features
save_synthetic_features_to_file(df=df, overwrite=True)

## Combinación de conjuntos de datos

In [None]:
# join the original and synthetic features
data = df.join(sf)

# reorder columns to have the target ('atraso_15') at the end of the dataframe
# data = data[[c for c in data.columns if c != 'atraso_15'] + ['atraso_15']]
data = data.reindex(columns=[c for c in data.columns if c != 'atraso_15'] + ['atraso_15'])

# first rows of the dataframe
data.head(10)

## ¿Cómo se distribuyen los datos?

En primer lugar, sería importante realizar un análisis exploratorio para conocer la distribución y características de los datos.

Para ello, se pueden realizar gráficos y tablas para visualizar la información y obtener conclusiones.

Algunas preguntas que podrían ser interesantes responder son:
- ¿Cuántos vuelos hay en el dataset?
- ¿Hay una distribución equitativa de vuelos nacionales e internacionales?
- ¿Existen aerolíneas que tengan una tasa de atraso mayor a otras?
- ¿Hay meses o días de la semana en los que se presentan más atrasos?
- ¿Qué porcentaje de vuelos tiene atrasos?

In [None]:
summary(data, name='original data and synthetic features')

## Comentarios

- Llama la atención que la mayoría de los vuelos  (`59.954%`) sean operados por la aerolínea `LAN` (grupo LATAM). Podría ser que la aerolínea `LAN` sea la que más vuelos realiza desde y hacia el aeropuerto de Santiago de Chile, o bien, que ella sea la empresa que esté más interesada en predecir los retrasos de sus vuelos y por lo tanto haya colaborado con la generación de los datos para este desafío (o ambas cosas).

- Llama la atención que la mayoría de los vuelos (`81.506%`) tienen un retraso _menor_ a `15` minutos. Por lo tanto, el conjunto de datos está desbalanceado y se debe tener cuidado al evaluar los modelos, ya que, si por ejemplo se utiliza la métrica de _accuracy_, se podría estar sobreestimando el desempeño del modelo. Por lo tanto, es recomendable considerar utilizar otras métricas como _AUC_ o _F1_ para evaluar los modelos obtenidos. Esto será más claro en la sección de evaluación.

## ¿Cómo se compone la tasa de atraso por destino, aerolínea, mes del año, día de la semana, temporada, tipo de vuelo?

A continuación, se muestran algunos gráficos que permiten visualizar la tasa de atraso por destino, aerolínea, mes del año, día de la semana, temporada y tipo de vuelo.

In [None]:
plot_delay_ratios(df=data)

## ¿Qué variables esperarías que más influyeran en predecir atrasos?

En cuanto a las variables que esperaría que más influyeran en la predicción de atrasos, algunas opciones podrían ser:
- la temporada
- el mes del año
- el día de la semana
- el tipo de vuelo (nacional o internacional)
- el destino
- la aerolínea

In [None]:
max_cardinality: int = 25  # 25, 50, 100
max_frequency: float = 0.95  # 0.90, 0.95, 0.99

# columns to skip in the analysis and reason why
skip = {}
for col in data.select_dtypes(include=['category', 'number']).columns:
    if col in {'atraso_15', 'dif_min'}:
        # the target variable, and the feature that is used to create the target variable
        reason = 'target variable leakage'
    elif col.endswith('-O'):
        # operational features are not available at inference time
        reason = 'not available at inference time'
    elif data[col].nunique() > max_cardinality:
        # the number of unique values is too high (high cardinality)
        reason = f'too many unique values ({data[col].nunique()})'
    elif data[col].value_counts(normalize=True).max() > max_frequency:
        # the most frequent value is too frequent (low variance) - constant or near constant feature
        reason = f'low variance ({data[col].value_counts(normalize=True).max():3.3%} of the values are the same)'
    else:
        continue
    # add the column to the dictionary with the reason to skip it
    skip[col] = reason

pprint.pprint(skip, indent=4, width=120, sort_dicts=False)

In [None]:
for col in data.select_dtypes(include=['category']).columns:

    if col in skip:
        print(f'SKIPPING:    {col:15s}  REASON:       {skip[col]:<40}')
        continue

    print(f'PROCESSING:  {col:15s}  CARDINALITY:  ({data[col].nunique()})')

    if 0:
        display(
            # make a copy of the dataframe to avoid modifying the original one
            data.copy(deep=True)
            # select the column
            # count the number of occurrences of each category
            .value_counts(
                subset=[col],
                normalize=True,
                sort=True,
                ascending=False,
                dropna=False,
            )
            # rename the column with the category to 'category' (for consistency)
            .rename_axis(index={col: 'category'},)
            # rename the column with the frequency of each category to 'frequency'
            .rename('frequency')
            # transform the series into a dataframe
            .to_frame()
            # style the dataframe
            .style
            # set table styles
            .set_table_styles(TABLE_STYLES)
            # set caption
            .set_caption(f'Distribution of the column \'{col}\' ')
            # format the frequency as a percentage
            .format({'frequency': '{:.2%}'})
            # bar plot
            .bar(
                subset=['frequency'],
                # color='#5fba7d', # red
                color='#2b8cbe',  # blue
                vmin=0,
                vmax=1,
            )
            # display the table
        )

        # break

## Report

In [None]:
from typing import Optional

GENERATE_LIGHT_PROFILE_REPORT: bool = False
GENERATE_DEEP_PROFILE_REPORT: bool = False

tsmode: bool = False  # If True, use time series mode (default: False)
sortby: Optional[str] = 'Fecha-I'  # Default: None

In [None]:
if tsmode:
    if sortby is not None:
        # if 'tsmode' is True and 'sortby' is not None, then
        # set the index to the date column given by the 'sortby' parameter
        data = data.set_index(
            keys=sortby,
            # drop the date column from the dataframe
            # to avoid the following error:
            #   ValueError(f'{sortby} is both an index level and a column label, which is ambiguous.')
            drop=True,
            inplace=False,
        )

        # then, sort the dataframe by the index (the given date column that is now the index) in ascending order
        data = data.sort_index(
            ascending=True,
            axis=0,
            inplace=False,
        )

        # finally, reset the index to a column in the dataframe (drop=False)
        data = data.reset_index(
            drop=False,  # keep the original index as a column in the dataframe (drop=False)
            inplace=False,
        )

In [None]:
display(data.head())

In [None]:
if GENERATE_LIGHT_PROFILE_REPORT:
    # with pandas_plotting_backend(backend='matplotlib'):  # NOTE: Handled by the `generate_profile_report` function.
    light_profile_report = generate_profile_report(
        data=data,
        minimal=True,
        explorative=False,
        # Time Series Configuration
        tsmode=tsmode,
        sortby=sortby,
        # Sampling Configuration
        sample_the_dataset=False,
        sample_kwargs=None,
    )
    display(light_profile_report)
    # light_profile_report.to_widgets()

In [None]:
if GENERATE_DEEP_PROFILE_REPORT:
    # with pandas_plotting_backend(backend='matplotlib'):  # NOTE: Handled by the `generate_profile_report` function.
    deep_profile_report = generate_profile_report(
        data=data,
        minimal=False,
        explorative=True,
        # Time Series Configuration
        tsmode=tsmode,
        sortby=sortby,
        # Sampling Configuration
        sample_the_dataset=False,
        sample_kwargs=None,
    )
    display(deep_profile_report)

In [None]:
if GENERATE_LIGHT_PROFILE_REPORT:
    PATH_TO_LIGHT_PROFILE_REPORT = get_reports_dir_path() / 'light_profile_report.html'
    light_profile_report.to_file(output_file=PATH_TO_LIGHT_PROFILE_REPORT)

In [None]:
if GENERATE_DEEP_PROFILE_REPORT:
    PATH_TO_DEEP_PROFILE_REPORT = get_reports_dir_path() / 'deep_profile_report.html'
    deep_profile_report.to_file(output_file=PATH_TO_DEEP_PROFILE_REPORT)

## Model

In [None]:
data.info()

In [None]:
# # TODO: transform 'atraso_15' to integer before training to see if AUC plot works
# # (now, an error occurs when it tries to operate between numeric and categoric elements)
data['atraso_15'] = data['atraso_15'].astype(int)

In [None]:
display(data.head())

In [None]:
from datetime import datetime
from typing import Any, cast, Dict

from pycaret.classification import *

from neuralworks.constants import get_assets_dir_path
from neuralworks.constants import get_path_to_logs_dir_path
from neuralworks.data import get_column_descriptions
from neuralworks.report import DatasetMetadata
from neuralworks.report import get_default_dataset_metadata
from neuralworks.report import get_default_profile_kwargs
from neuralworks.report import PandasProfilingReportConfig
from neuralworks.report import sample_dataset

# https://imbalanced-learn.org/stable/over_sampling.html
#
# from imblearn.over_sampling import SMOTE
# from imblearn.over_sampling import ADASYN
#
# BorderlineSMOTE
# SVMSMOTE
# KMeansSMOTE
#
# SMOTENC  # categorical_features
# SMOTEN
#
# https://imbalanced-learn.org/stable/under_sampling.html
# https://imbalanced-learn.org/stable/combine.html

sample_kwargs = {'frac': 0.1, 'random_state': 42}
_ = sample_kwargs.setdefault('frac', 0.1)  # randomly select 10% (0.1) of the rows
_ = sample_kwargs.setdefault('random_state', 42)  # set the random state for reproducibility

dataset_metadata: DatasetMetadata = get_default_dataset_metadata()
# sample the dataset and add it to the dataset metadata dictionary
# _ = dataset_metadata.setdefault('sample', sample_dataset(data=data, **sample_kwargs))

# tsmode: bool = True  # If True, use time series mode (default: False)
# sortby: Optional[str] = 'Fecha-I'  # Default: None
minimal: bool = True
explorative: bool = True

profile_kwargs: PandasProfilingReportConfig = get_default_profile_kwargs()
profile_kwargs['dataset'] = dataset_metadata
profile_kwargs['minimal'] = minimal
profile_kwargs['explorative'] = explorative
profile_kwargs['tsmode'] = tsmode
profile_kwargs['sortby'] = sortby

# NOTE: To disable samples, correlations, missing diagrams and duplicates at once, set them to None
# profile_kwargs['samples'] = None
# profile_kwargs['correlations'] = None
# profile_kwargs['missing_diagrams'] = None
# profile_kwargs['duplicates'] = None
# profile_kwargs['interactions'] = None

target: str = 'atraso_15'  # (unique values:    2)
polynomial_features: bool = False

# setup the environment
clf = setup(
    # copy the data to avoid side effects
    data=data.copy(deep=True),  # TRAIN DATA
    target=target,
    index=False,
    train_size=0.8,
    #
    # ordinal_features=None,
    ordinal_features={
        # original features
        'DIA': list(range(1, 31 + 1)),
        'MES': list(range(1, 12 + 1)),
        'AÑO': list(range(2017, 2018 + 1)),
        'DIANOM': ['Lunes', 'Martes', 'Miercoles', 'Jueves', 'Viernes', 'Sabado', 'Domingo'],
        # synthetic features
        'periodo_dia': ['mañana', 'tarde', 'noche'],
    },
    #
    # numeric_features=None,
    # numeric_features=[
    #     'dif_min',  # target leakage, because it ('dif_min') is a function of the target variable ('atraso_15')
    # ],
    #
    # categorical_features=None,
    categorical_features=[
        # original features
        'DIA',
        'MES',
        'AÑO',
        'DIANOM',
        #
        'TIPOVUELO',  # (unique values:  2)
        'OPERA',  # high cardinality (unique values: 23)  # TODO: CHECK THIS VARIABLE
        'SIGLADES',  # high cardinality (unique values: 62)  # TODO: CHECK THIS VARIABLE
        #
        # synthetic features
        'periodo_dia',
        'temporada_alta',  # (unique values:    2)
    ],
    #
    # date_features=None,
    # date_features=[
    #     'Fecha-I',  # using 'DIA', 'MES', 'AÑO', 'periodo_dia' features instead  # TODO: VERIFY THIS
    #     'Fecha-O',  # Not available at inference time  # target leakage (the target variable is calculated using this feature)
    # ],
    #
    # text_features=None,
    #
    # ignore_features=None,
    ignore_features=[
        # original features
        #
        'Fecha-I',  # using 'DIA', 'MES', 'AÑO', 'periodo_dia' features instead     # TODO: VERIFY THIS
        #
        'Vlo-I',  # high cardinality feature     (unique values:  584)
        'Ori-I',  # low  variance    feature     (unique values:    1)
        'Des-I',  # (unique values:   64) - Using 'SIGLADES' instead
        'Emp-I',  # (unique values:   30) - Using 'OPERA' instead
        #
        'Fecha-O',  # Not available at inference time | target leakage (the target variable is calculated using this feature)
        #
        'Vlo-O',  # not available at inference time (unique values:  861)
        'Ori-O',  # not available at inference time (unique values:    1)  # low  variance   feature
        'Des-O',  # not available at inference time (unique values:   63)
        'Emp-O',  # not available at inference time (unique values:   32)
        #
        'SIGLAORI',  # low  variance   feature     (unique values:    1)
        #
        # synthetic features
        'dif_min',  # target leakage (the target variable is calculated using this feature)
    ],
    #
    # keep_features=None,
    #
    # create_date_columns=[
    #     # 'day',
    #     'month',
    #     'year',
    # ]
    #
    imputation_type='simple',
    numeric_imputation='mean',
    categorical_imputation='mode',
    #
    polynomial_features=polynomial_features,
    polynomial_degree=2,
    #
    low_variance_threshold=0.01,  # Default: None
    #
    # group_features=None,
    # group_names=None,
    #
    remove_multicollinearity=True,
    multicollinearity_threshold=0.9,
    #
    # bin_numeric_features=None,
    #
    remove_outliers=True,  # if True, removes outliers using an Isolation Forest.
    outliers_method='iforest',  # 'iforest' (IsolationForest), 'ee' (EllipticEnvelope), 'lof' (LocalOutlierFactor)
    outliers_threshold=0.05,  # percentage of outliers to be removed (default=0.05)
    #
    # IMBALANCE
    fix_imbalance=True,  # If set to True, uses SMOTE (Synthetic Minority Over-sampling Technique)
    fix_imbalance_method='SMOTE',
    #
    transformation=True,  # If set to True, it applies the power transform to make data more Gaussian-like.
    transformation_method='yeo-johnson',  # 'yeo-johnson' (Box-Cox transform), 'quantile' (Quantile transform)
    #
    normalize=True,
    normalize_method='zscore',  # 'minmax', 'maxabs', 'robust', 'zscore'
    #
    # pca=True,  # If set to True, it applies PCA to reduce the dimensionality of the data.
    # pca_method='linear',  # 'linear', 'kernel', 'incremental'
    # pca_components='mle',  # number of components to keep, 'mle' (Minka's MLE)
    #
    feature_selection=False,  # <<<------------------------------------------------------
    # 'univariate' (SelectKBest) 'classic' (SelectFromModel) 'sequential' (SequentialFeatureSelector)
    feature_selection_method='classic',
    feature_selection_estimator='lightgbm',
    # TODO: VERIFY THIS <<<------------------------------------------------------
    n_features_to_select=0.2,  # Default=0.2 (20% of features) - Old default: 10
    #
    data_split_shuffle=True,  # if True, shuffles the data before splitting
    # data_split_stratify=True,  # if True, stratify the data based on the "target" column
    data_split_stratify=[
        # 'DIA',
        # 'MES',
        # 'AÑO',
        # 'DIANOM',
        'TIPOVUELO',
        # 'OPERA',
        # 'SIGLADES',
        # 'periodo_dia',
        'temporada_alta',
        # target column
        'atraso_15'
    ],
    #
    fold_strategy='stratifiedkfold',  # 'kfold', 'stratifiedkfold', 'groupkfold', 'timeseries',  custom CV generator 
    fold=5,  # number of folds in a CV setup (default=10)
    fold_shuffle=True,  # if True, shuffles the data before splitting into folds (default=False)
    # fold_groups=None,
    #
    n_jobs=-1,
    #
    session_id=123,
    system_log=str(get_path_to_logs_dir_path() / f'{datetime.now().strftime("%Y%m%d_%H%M%S")}_pycaret.log'),
    log_experiment='mlflow',
    experiment_name=f'{datetime.now().strftime("%Y%m%d_%H%M%S")}_pycaret_experiment',
    log_plots=True,  # to log plots in mlflow
    log_profile=True,  # to log data profile in mlflow
    log_data=True,  # to log dataset in mlflow
    #
    profile=True,  # INTERACTIVE EDA REPORT - does not work in vscode
    profile_kwargs=cast(Dict[str, Any], profile_kwargs),
)

In [None]:
# In a terminal, run:
#   cd "${HOME}/Documents/GitHub/latam/notebooks" && mlflow ui

# https://www.mlflow.org/docs/latest/tracking.html#storage
# ['postgresql', 'mysql', 'sqlite', 'mssql']
# mlflow ui --backend-store-uri sqlite:///mlruns.db --host

In [None]:
# TODO: exclude catboost since it is too slow, and has poor performance?
clf.models()[clf.models()['Turbo']]['Name'].to_dict()

In [None]:
clf.data

In [None]:
clf.dataset

In [None]:
# feature names: ['x0', 'x1', ..., 'x(n_features - 1)']
{i: c for i, c in enumerate(clf.dataset.columns.to_list())}

In [None]:
clf.pipeline

In [None]:
type(clf.pipeline)

In [None]:
import pycaret
import pycaret.internal
import pycaret.internal.pipeline

pipeline = pycaret.internal.pipeline.Pipeline(steps=clf.pipeline.steps[0:5], verbose=False)
display(pipeline)

# X is the data dataframe without the target column
X = data.copy(deep=True).drop(columns=[target])
# y is the target column
y = data.copy(deep=True)[target]

# (n_samples, n_transformed_features)
(Xt, yt) = pipeline.fit_transform(X=X, y=y)

In [None]:
type(Xt), len(Xt), type(Xt), type(yt), len(Xt), len(yt)

In [None]:
display(Xt.head())

In [None]:
# Xt[['Des-I', 'OPERA_K.L.M.']]

# Ori-I OPERA_Iberia

In [None]:
# polynomial_features: bool, default = False
# When set to True, new features are created based on all polynomial combinations that exist within the numeric features in a dataset to the degree defined in polynomial_degree param.

# polynomial_degree: int, default = 2
# Degree of polynomial features. For example, if an input sample is two dimensional and of the form [a, b], the polynomial features with degree = 2 are: [1, a, b, a^2, ab, b^2].

# https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html

dataset_transformed = clf.dataset_transformed.copy(deep=True)
dataset_transformed

In [None]:
if polynomial_features:
    # map transformed column names
    # # feature names: ['x0', 'x1', ..., 'x(n_features - 1)']
    m = {str(i): c for i, c in enumerate(Xt.columns.to_list())}
    display(m)

    for c in dataset_transformed.columns.to_list():
        if c not in [target]:
            v = c.replace('x', '').split(' ')

            if len(v) == 1:
                print(c, '     -----> ', m[v[0]])

            if len(v) == 2:
                print(c, ' -----> ', m[v[0]], ' * ', m[v[1]])

            print()

    # Des-I
    # OPERA_K.L.M.

In [None]:
dataset_transformed.corr('pearson')

In [None]:
plt.figure(figsize=(20, 10))

# Pearson product-moment correlation coefficient (standard correlation coefficient)
# https://en.wikipedia.org/wiki/Pearson_correlation_coefficient
sns.heatmap(
    # Compute pairwise correlation of columns, excluding NA/null values.
    data=dataset_transformed.corr(method='pearson'),
    annot=True,
    fmt='.3f',
    cmap='coolwarm',  # set the color map
    # cmap='RdBu_r',  # set the color map
    cbar=True,  # set the color bar
    cbar_kws={'label': 'Pearson correlation coefficient'},
    vmin=-1,  # set the minimum value for the color map
    vmax=1,  # set the maximum value for the color map
)

plt.title(
    'Pearson correlation coefficient matrix of variables',
    fontsize=25,
    fontweight='bold',
    pad=20,
)

# display the plot
plt.show()

In [None]:
# -------------------------------------------------------------------------------------------------------

# La elección de la Métrica de evaluación más apropiada, dependerá del caso de uso
# La elección del Modelo dependerá del caso de uso

# Alta Precision se relaciona con una tasa baja de falsos positivos

# Alto Recall se relaciona con una baja tasa de falsos negativos.
# lo que significa que el modelo será más conservador en sus predicciones
# (es decir, será más probable que prediga un 0 cuando el valor verdadero es 1)

# Recall    - cuando la detección de la verdad es de suma importancia.
#     Ejemplo: La predicción del cáncer,
#              aquí la declaración del problema requiere que se minimicen los falsos negativos,
#              lo que implica que se maximice el Recall y Sensitivity (true positive rate)

# Precision - cuando no tener una gran cantidad de falsos positivos de suma importancia
#     Ejemplo: La detección de spam,
#              un falso positivo sería una observación que no era spam pero que nuestro modelo de clasificación clasificó como spam
#
#     Alta Precision se relaciona con una tasa baja de falsos positivos,
#     lo que significa que el modelo será más conservador en sus predicciones

# high precision relates to the low false positive rate,
# high recall relates to the low false negative rate,
# and high F-beta score relates to both.

# The highest possible value of an F-score is 1.0, indicating perfect precision and recall,
# and the lowest possible value is 0, if both precision and recall are zero.deep_profile_report

# F1 gives importance to both Recall and Precision.

# Kappa is a good metric for imbalanced dataset
# it takes into account the possibility of the agreement occurring by chance.

# The Kappa statistic (or value) is a metric that compares an Observed Accuracy with an Expected Accuracy (random chance).
# Kappa = (observed accuracy - expected accuracy)/(1 - expected accuracy)

# Landis and Koch considers 0-0.20 as slight, 0.21-0.40 as fair, 0.41-0.60 as moderate, 0.61-0.80 as substantial, and 0.81-1 as almost perfect.
# Fleiss considers kappas > 0.75 as excellent, 0.40-0.75 as fair to good, and < 0.40 as poor.

# We use Kappa for selecting a best suited model type and hyperparametrization amongst multiple choices for our very imbalanced problem

# https://stats.stackexchange.com/questions/82162/cohens-kappa-in-plain-english
# https://stats.stackexchange.com/questions/222558/classification-evaluation-metrics-for-highly-imbalanced-data

# https://scikit-learn.org/stable/modules/generated/sklearn.metrics.balanced_accuracy_score.html#sklearn-metrics-balanced-accuracy-score

# -------------------------------------------------------------------------------------------------------

In [None]:
# -------------------------------------------------------------------------------------------------------

# NOTE: Bagging  is used as a way to reduce the variance          of a black-box estimator
# https://pycaret.gitbook.io/docs/get-started/functions/optimize#method-bagging

# NOTE: Boosting is used as a way to reduce the bias and variance of a black-box estimator
# https://pycaret.gitbook.io/docs/get-started/functions/optimize#method-boosting

# -------------------------------------------------------------------------------------------------------

# A Bagging classifier is an ensemble meta-estimator
# that fits base classifiers each on random subsets of the original dataset
# and then aggregate their individual predictions (either by voting or by averaging)
# to form a final prediction.
#
# Such a meta-estimator can typically be used as a way to reduce the variance of a black-box estimator
# (e.g., a decision tree), by introducing randomization into its construction procedure
# and then making an ensemble out of it.

# https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingClassifier.html

# -------------------------------------------------------------------------------------------------------

In [None]:
# -------------------------------------------------------------------------------------------------------

# https://scikit-learn.org/stable/modules/ensemble.html#voting-classifier

# The idea behind the VotingClassifier is to combine conceptually different machine learning classifiers
# and use a majority vote or the average predicted probabilities (soft vote) to predict the class labels.
# Such a classifier can be useful for a set of equally well performing models in order to balance out
# their individual weaknesses.

# -------------------------------------------------------------------------------------------------------

# https://pycaret.gitbook.io/docs/get-started/functions/optimize#changing-the-method

# When method = 'soft', it predicts the class label based on the argmax of the sums of the predicted
# probabilities, which is recommended for an ensemble of well-calibrated classifiers

# When the method = 'hard' , it uses the predictions (hard labels) from input models instead of probabilities.

# The default method is set to auto which means it will try to use soft method
# and fall back to hard if the former is not supported,
# this may happen when one of your input models does not support predict_proba attribute.

# -------------------------------------------------------------------------------------------------------

# https://pycaret.gitbook.io/docs/get-started/functions/optimize#changing-the-weights

# By default, all the input models are given equal weight when blending them
# but you can explicitly pass the weights to be given to each input model.
# Example: blender_weighted = blend_models([lr,dt,knn], weights = [0.5,0.2,0.3])

# You can also tune the weights of the blender using the tune_model
# # blender_weighted = blend_models([lr,dt,knn], weights = [0.5,0.2,0.3])
# # tuned_blender = tune_model(blender_weighted)

# -------------------------------------------------------------------------------------------------------

In [None]:
# -------------------------------------------------------------------------------------------------------

# https://scikit-learn.org/stable/modules/ensemble.html#stacked-generalization

# Stacked generalization is a method for combining estimators to reduce their biases
# The predictions of each individual estimator are stacked together and used as input
# to a final estimator to compute the prediction. This final estimator is trained through cross-validation.

# -------------------------------------------------------------------------------------------------------

In [None]:
# NOTE: 'Kappa' is a good classification metric for highly imbalanced datasets.
# https://stats.stackexchange.com/questions/222558/classification-evaluation-metrics-for-highly-imbalanced-data

# Number of top_n models to return. For example, to select top 3 models use n_select = 3.
n_select = 3

# Metric to sort the models by.
sort_by = 'Kappa'  # 'Accuracy', 'AUC', 'Recall', 'Precision', 'F1', 'Kappa', 'MCC'

# Metric to use for model selection.
# optimize_metric = 'Kappa'  # 'Accuracy', 'AUC', 'Recall', 'Precision', 'F1', 'Kappa', 'MCC'

# optimize_metric = 'Accuracy'
# optimize_metric = 'AUC'  # -----------------------------> AUC
# optimize_metric = 'Recall'
# optimize_metric = 'Precision'
optimize_metric = 'F1'  # ----------------------------> F1
# optimize_metric = 'Kappa'
# optimize_metric = 'MCC'

# The search library used for tuning hyperparameters.
search_library = 'scikit-optimize'  # 'scikit-learn' (default), 'scikit-optimize', 'tune-sklearn', 'optuna'
# search_library = 'tune-sklearn'  # 'scikit-learn' (default), 'scikit-optimize', 'tune-sklearn', 'optuna'

if search_library == 'scikit-learn':
    # - 'random'        : random grid search (default)
    # - 'grid'          : grid search
    search_algorithm = 'random'
if search_library == 'scikit-optimize':
    # - 'bayesian'      : Bayesian search (default)
    search_algorithm = 'bayesian'
elif search_library == 'tune-sklearn':
    # - 'random'        : random grid search (default)
    # - 'grid'          : grid search
    # - 'bayesian'      : ``pip install scikit-optimize``
    # - 'hyperopt'      : ``pip install hyperopt``
    # - 'optuna'        : ``pip install optuna``
    # - 'bohb'          : ``pip install hpbandster ConfigSpace``
    # search_algorithm = 'random'
    search_algorithm = 'bayesian'
elif search_library == 'optuna':
    # - 'random'        : randomized search
    # - 'tpe'           : Tree-structured Parzen Estimator search (default)
    search_algorithm = 'tpe'
else:
    search_algorithm = None  # default: None

# TODO: Consider using Early Stopping for Tuning

# early_stopping: bool or str or object, default = False
#     Use early stopping to stop fitting to a hyperparameter configuration
#     if it performs poorly. Ignored when ``search_library`` is scikit-learn,
#     or if the estimator does not have 'partial_fit' attribute. If False or
#     None, early stopping will not be used. Can be either an object accepted
#     by the search library or one of the following:

#     - 'asha' for Asynchronous Successive Halving Algorithm
#     - 'hyperband' for Hyperband
#     - 'median' for Median Stopping Rule
#     - If False or None, early stopping will not be used.

# early_stopping_max_iters: int, default = 10
#     Maximum number of epochs to run for each sampled configuration.
#     Ignored if ``early_stopping`` is False or None.

In [None]:
optimize_metric

In [None]:
# compare the performance of all models
topk = compare_models(
    cross_validation=True,
    sort=sort_by,
    n_select=n_select,
    verbose=True,
)

# get the scoring grid of the top k models
topk_results: pd.DataFrame = pull()  # .reset_index(drop=True)

# ['Model', 'Accuracy', 'AUC', 'Recall', 'Prec.', 'F1', 'Kappa', 'MCC', 'TT (Sec)']
# topk_results.columns.to_list()

In [None]:
# TODO: Check if increasing the n_iter is helpful or not (e.g., n_iter = 50)

# TODO: Check if setting choose_better = True is more appropiate
# https://pycaret.gitbook.io/docs/get-started/functions/optimize#automatically-choose-better
# When set to True it will always return a better performing model
# meaning that if hyperparameter tuning doesn't improve the performance,
# it will return the input model.

# https://pycaret.readthedocs.io/en/latest/api/classification.html#pycaret.classification.tune_model
tuned_topk = [
    tune_model(
        i,
        optimize=optimize_metric,
        search_library=search_library,
        # choose_better=True,
        n_iter=50,  # <<<------------------------------------------------------
    ) for i in topk
]

In [None]:
# TODO: Check if increasing the n_estimators is helpful or not  (e.g., n_estimators = 100)

# TODO: Check if setting choose_better = True is more appropiate
# https://pycaret.gitbook.io/docs/get-started/functions/optimize#automatically-choose-better-1
# When set to True it will always return a better performing model
# meaning that if hyperparameter tuning doesn't improve the performance,
# it will return the input model.

# ensembled_topk
bagged_topk = [
    ensemble_model(
        i,
        method='Bagging',
        optimize=optimize_metric,
        # choose_better=True,
        n_estimators=100,  # <<<------------------------------------------------------
    ) for i in tuned_topk  # topk
]

In [None]:
# TODO: Check if setting choose_better = True is more appropiate
# https://pycaret.gitbook.io/docs/get-started/functions/optimize#automatically-choose-better-2
# When set to True it will always return a better performing model
# meaning that if hyperparameter tuning doesn't improve the performance,
# it will return the input model.

# This function trains a Soft Voting / Majority Rule classifier for select models
blender = blend_models(
    tuned_topk,  # topk,  # TODO: CHECK THIS
    optimize=optimize_metric,
    # choose_better=True,
    weights=[1.0 / len(tuned_topk)] * len(tuned_topk),
)

In [None]:
# TODO: Check if increasing the n_iter is helpful or not (e.g., n_iter = 50)

# TODO: Check if setting choose_better = True is more appropiate
# https://pycaret.gitbook.io/docs/get-started/functions/optimize#automatically-choose-better
# When set to True it will always return a better performing model
# meaning that if hyperparameter tuning doesn't improve the performance,
# it will return the input model.

tuned_blender = tune_model(
    blender,
    optimize=optimize_metric,
    search_library=search_library,
    search_algorithm=search_algorithm,
    # choose_better=True,
    n_iter=50,  # <<<------------------------------------------------------
)

In [None]:
# TODO: Check setting method = 'auto' explicitly
# https://pycaret.gitbook.io/docs/get-started/functions/optimize#changing-the-method-1

# TODO: Check setting the meta_model explicitly
# train meta-model
# meta_model = create_model('lightgbm')

# TODO: Check setting restack = False or not
# https://pycaret.gitbook.io/docs/get-started/functions/optimize#restacking

stacker = stack_models(
    tuned_topk,  # topk,  # TODO: CHECK THIS
    optimize=optimize_metric,
    # method='auto',
    # meta_model=meta_model,
    # restack=False,
)

In [None]:
best_model = automl(optimize=optimize_metric)
display(best_model)

In [None]:
evaluate_model(best_model)

In [None]:
deep_check(best_model)

In [None]:
dashboard(best_model)

In [None]:
# This function analyzes the predictions generated from a trained model.
# Most plots in this function are implemented based on the SHAP (Shapley Additive exPlanations).
# For more info on this, please see https://shap.readthedocs.io/en/latest/
try:
    interpret_model(best_model)
except Exception as e:
    print(e)

In [None]:
# the 'base value' is defined as the mean predicted target
# f(x) is the prediction for a selected observation
# The red-colored  features increased the predicted value
# The blue-colored features decreased the predicted value
# The size of each feature indicates the impact it has on the model
try:
    interpret_model(best_model, plot='reason')
except Exception as e:
    print(e)

In [None]:
try:
    interpret_model(best_model, plot='correlation')
except Exception as e:
    print(e)

In [None]:
# calibrate model
calibrated = calibrate_model(best_model)

In [None]:
# evaluate_model(calibrated)

In [None]:
# optimize threshold
calibrated_threshold_optimized = optimize_threshold(calibrated)
# display(calibrated_threshold_optimized)

In [None]:
# evaluate_model(calibrated_threshold_optimized)

In [None]:
# optimize threshold
threshold_optimized = optimize_threshold(best_model)
display(threshold_optimized)

In [None]:
# evaluate_model(threshold_optimized)

In [None]:
leaderboard = get_leaderboard(finalize_models=False, model_only=False)
display(leaderboard)

In [None]:
# sorted
display(
    # copy
    leaderboard.copy(deep=True)
    # drop
    .drop(columns=['Model'])
    # sort
    .sort_values(
        by=[
            'Kappa',
            'F1',
            'Prec.',
            'Recall',
            'AUC',
            'MCC',
            'Accuracy',
        ],
        ascending=False,
    )
    # top
    .head(50)
    # display
)

In [None]:
display(
    # copy
    leaderboard.copy(deep=True)
    # drop
    .drop(columns=['Model'])
    # descriptive stats
    .describe()
    # transpose
    .T
    # reorder
    .reindex([
        'Kappa',
        'F1',
        'Prec.',
        'Recall',
        'AUC',
        'MCC',
        'Accuracy',
    ])
    # display
)

In [None]:
# analyzes the performance of a trained model on holdout set.

#   List of available plots (ID - Name):
#
#       * 'pipeline'            - Schematic drawing of the preprocessing pipeline
#       * 'auc'                 - Area Under the Curve
#       * 'threshold'           - Discrimination Threshold
#       * 'pr'                  - Precision Recall Curve
#       * 'confusion_matrix'    - Confusion Matrix
#       * 'error'               - Class Prediction Error
#       * 'class_report'        - Classification Report
#       * 'boundary'            - Decision Boundary
#       * 'rfe'                 - Recursive Feature Selection
#       * 'learning'            - Learning Curve
#       * 'manifold'            - Manifold Learning
#       * 'calibration'         - Calibration Curve
#       * 'vc'                  - Validation Curve
#       * 'dimension'           - Dimension Learning
#       * 'feature'             - Feature Importance
#       * 'feature_all'         - Feature Importance (All)
#       * 'parameter'           - Model Hyperparameter
#       * 'lift'                - Lift Curve
#       * 'gain'                - Gain Chart
#       * 'tree'                - Decision Tree
#       * 'ks'                  - KS Statistic Plot

In [None]:
if 0:
    for model in topk:
        display(model)

if 0:
    for model in topk:
        try:
            plot_model(model, plot='auc')  # Area Under the Curve
        except Exception as e:
            print(e)

if 0:
    for model in topk:
        try:
            # https://www.scikit-yb.org/en/latest/api/classifier/confusion_matrix.html#yellowbrick.classifier.confusion_matrix.ConfusionMatrix
            plot_model(
                model,
                plot='confusion_matrix',
                plot_kwargs={'percent': True},
            )  # Confusion Matrix
        except Exception as e:
            print(e)

if 0:
    for model in topk:
        try:
            plot_model(model, plot='error')  # Class Prediction Error
        except Exception as e:
            print(e)

if 0:
    for model in topk:
        try:
            # https://www.scikit-yb.org/en/latest/api/classifier/classification_report.html#yellowbrick.classifier.classification_report.ClassificationReport
            plot_model(
                model,
                plot='class_report',
            )  # Classification Report
        except Exception as e:
            print(e)

if 0:
    for model in topk:
        try:
            plot_model(model, plot='feature')  # feature importance
        except Exception as e:
            print(e)

if 1:
    for model in topk:
        try:
            plot_model(model, plot='feature_all')  # feature importance (all)
        except Exception as e:
            print(e)

if 0:
    for model in topk:
        try:
            # https://www.scikit-yb.org/en/latest/api/classifier/threshold.html#yellowbrick.classifier.threshold.DiscriminationThreshold
            plot_model(model, plot='threshold')  # Discrimination Threshold
        except Exception as e:
            print(e)

if 0:
    for model in topk:
        try:
            plot_model(model, plot='parameter')  # Model Hyperparameter
        except Exception as e:
            print(e)

# for model in tuned_topk:
#     display(model)

# for model in bagged_topk:
#     display(model)

In [None]:
if 0:
    # NOTE: This is being very slow and it is not clear if it is worth it yet
    # optimizes the probability threshold for a trained model
    # https://pycaret.gitbook.io/docs/get-started/functions/optimize#optimize_threshold
    best_model_threshold = optimize_threshold(
        best_model,
        optimize=optimize_metric,
        grid_interval=0.1,  # NOTE: This should be 10 iterations
    )

In [None]:
try:
    final_model = finalize_model(best_model)
except Exception as e:
    print(e)

In [None]:
# interpret_model
# calibrate_model

In [None]:
# predict the target column of the test dataset
# predictions = predict_model(final_model)

In [None]:
# save the model
save_model(model=best_model, model_name='my_best_pipeline')