# Fluxo de Execução da Aplicação (Pipeline Padrão)

Este notebook descreve o fluxo de execução padrão da aplicação Kedro, conforme definido em `pipeline_registry.py`. O pipeline `__default__` executa as seguintes etapas principais em sequência:

1.  **Pipeline de Processamento de Dados (`data_processing`)**: Prepara os dados brutos para modelagem.
2.  **Pipeline de Ciência de Dados (`data_science`)**: Treina modelos e seleciona o melhor.
3.  **Pipeline de Relatórios (`reporting`)**: Gera visualizações e relatórios sobre os modelos.

## 1. Pipeline de Processamento de Dados (`data_processing`)

Este pipeline é responsável por carregar, limpar, transformar e dividir os dados.

**Passos:**

1.  **`preprocess_shuttles_node`**: 
    - **Função:** `preprocess_shuttles`
    - **Entradas:** `dataset_dev`, `dataset_prod`
    - **Saída:** `shuttles_filtered`
    - **Descrição:** Pré-processa os datasets de desenvolvimento e produção.

2.  **`save_filtered_data_node`**: 
    - **Função:** `save_filtered_data`
    - **Entrada:** `shuttles_filtered`
    - **Saída:** `data_filtered`
    - **Descrição:** Salva os dados pré-processados.

3.  **`split_data_node`**: 
    - **Função:** `split_data`
    - **Entrada:** `data_filtered`
    - **Saídas:** `train_data`, `test_data`
    - **Descrição:** Divide os dados em conjuntos de treino e teste.

4.  **`save_train_data_node`**: 
    - **Função:** `save_filtered_data`
    - **Entrada:** `train_data`
    - **Saída:** `base_train`
    - **Descrição:** Salva o conjunto de dados de treino.

5.  **`save_test_data_node`**: 
    - **Função:** `save_filtered_data`
    - **Entrada:** `test_data`
    - **Saída:** `base_test`
    - **Descrição:** Salva o conjunto de dados de teste.

6.  **`create_model_input_table_node`**: 
    - **Função:** `create_model_input_table`
    - **Entrada:** `base_train`
    - **Saída:** `model_input_table`
    - **Descrição:** Cria a tabela final para entrada no modelo (usando apenas dados de treino).

7.  **`preprocess_prod_data_node`**: 
    - **Função:** `preprocess_single_dataset`
    - **Entrada:** `dataset_prod`
    - **Saída:** `preprocessed_prod_data`
    - **Descrição:** Pré-processa o dataset de produção separadamente (potencialmente para inferência ou monitoramento).

## 2. Pipeline de Ciência de Dados (`data_science`)

Este pipeline treina diferentes modelos de classificação, avalia-os e seleciona o melhor.

**Passos:**

1.  **`train_lr_node`**: 
    - **Função:** `train_logistic_regression`
    - **Entradas:** `base_train`, `base_test`
    - **Saída:** `lr_model`
    - **Descrição:** Treina um modelo de Regressão Logística.

2.  **`train_dt_node`**: 
    - **Função:** `train_decision_tree`
    - **Entradas:** `base_train`, `base_test`
    - **Saída:** `dt_model`
    - **Descrição:** Treina um modelo de Árvore de Decisão.

3.  **`select_best_model_node`**: 
    - **Função:** `select_best_model`
    - **Entradas:** `lr_model`, `dt_model`, `base_test`
    - **Saídas:** `final_model`, `best_model_justification_string`, `lr_f1_metric`, `lr_logloss_metric`, `dt_f1_metric`, `dt_logloss_metric`
    - **Descrição:** Compara os modelos treinados usando os dados de teste (`base_test`), seleciona o melhor (`final_model`), calcula métricas (F1-score, LogLoss) e gera uma justificativa (`best_model_justification_string`).

4.  **`save_model_justification_node`**: 
    - **Função:** `save_model_justification`
    - **Entrada:** `best_model_justification_string`
    - **Saída:** `model_justification`
    - **Descrição:** Salva a justificativa da seleção do modelo em um arquivo.

## 3. Pipeline de Relatórios (`reporting`)

Este pipeline gera saídas visuais para análise dos resultados.

**Passos:**

1.  **`plot_model_metrics_node`**: 
    - **Função:** `plot_model_comparison_metrics`
    - **Entradas:** `lr_f1_metric`, `lr_logloss_metric`, `dt_f1_metric`, `dt_logloss_metric`
    - **Saída:** `model_comparison_metrics_plot`
    - **Descrição:** Cria um gráfico comparando as métricas F1 e LogLoss dos modelos treinados.

## Conclusão

O fluxo padrão automatiza o processo desde a preparação dos dados até o treinamento, seleção e visualização de métricas dos modelos, garantindo um ciclo de desenvolvimento MLOps reprodutível.