<a href="https://colab.research.google.com/github/LaboraDev/hackathon_one_flightOnTime/blob/main/DOC_DS5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Relatório de Arquitetura de Pipeline e Script - Semana 05 (DS5)

**Detalhes do Projeto**
*   **Responsáveis:** Amélia e Ana, Time DS (Liderança: Helena)
*   **Repositório:** [Projeto FlightOnTime](https://github.com/LaboraDev/hackathon_one_flightOnTime/tree/main)
*   **Conformidade:** Boas práticas de Engenharia de Software aplicadas a Data Science.
*   **Script Rastreável:** [flight_delay_pipeline.py](https://github.com/LaboraDev/hackathon_one_flightOnTime/blob/main/notebooks/semana03/flight_delay_pipeline.py)
*   **Notebook Rastreável:** [Consolidado_S03_splitTemporal.ipynb](https://github.com/LaboraDev/hackathon_one_flightOnTime/blob/main/notebooks/semana03/Consolidado_S03_splitTemporal.ipynb)
*   **Eficiência Técnica:** Arquitetura modular com separação clara entre lógica de negócio e experimentação.
*   **Status:** Finalizado | **Data:** 17/01/2026

***

## 1. Visão Geral

Durante a Semana 05, consolidamos a [arquitetura do projeto](https://github.com/LaboraDev/hackathon_one_flightOnTime/blob/main/notebooks/semana03/flight_delay_pipeline.py) através da modularização do código em um script Python reutilizável. O objetivo foi transformar o projeto de um notebook isolado em um **sistema integrado e reprodutível**, separando a lógica de processamento (script) da experimentação e análise (notebook). Este trabalho garante que todas as transformações aplicadas aos dados sejam consistentes, rastreáveis e prontas para integração com APIs de produção no projeto [FlightOnTime](https://github.com/LaboraDev/hackathon_one_flightOnTime/tree/main).

***

## 2. Dicionário de Terminologia Técnica
Para garantir a compreensão de todos, usamos as seguintes definições:
- **Pipeline:** Sequência automatizada de transformações aplicadas aos dados desde a ingestão até o modelo final.
- **Script Python:** Arquivo `.py` que centraliza funções reutilizáveis, separado do notebook de experimentação. [flight_delay_pipeline.py](https://github.com/LaboraDev/hackathon_one_flightOnTime/blob/main/notebooks/semana03/flight_delay_pipeline.py)
- **Modularização:** Técnica de dividir código em componentes independentes e reutilizáveis.
- **Transformer (sklearn):** Classe que implementa métodos `fit()` e `transform()` para processamento de dados.
- **Reprodutibilidade:** Capacidade de obter os mesmos resultados executando o mesmo código em momentos diferentes.
- **API (Application Programming Interface):** Interface que permite integração do modelo com sistemas externos.

***

## 3. Blocos Funcionais do Script
O script [`flight_delay_pipeline.py`](https://github.com/LaboraDev/hackathon_one_flightOnTime/blob/main/notebooks/semana03/flight_delay_pipeline.py) organiza o código em cinco famílias principais de funções.

| Bloco Funcional | Propósito | Principais Componentes |
| :--- | :--- | :--- |
| **Ingestão e Limpeza** | Carregar e padronizar dados brutos da ANAC. | `carregar_dataset_base()`, `renomear_colunas()` |
| **Feature Engineering** | Criar variáveis preditivas a partir dos dados brutos. | `DatasFeaturesTransformer`, `UltimateFeatureEngineer`, `MediaAtrasoTransformer` |
| **Divisão de Dados** | Separar dados respeitando ordem cronológica. | `criar_split_temporal_train_val_test()` |
| **Modelagem** | Treinar e avaliar modelos de ML. | `treinar_classificador()`, `montar_preprocessador()` |
| **Explicabilidade** | Interpretar decisões do modelo. | `explicar_global_xgb()`, `explicar_local_xgb()` |

***

## 4. Funil de Utilização ([Notebook](https://github.com/LaboraDev/hackathon_one_flightOnTime/blob/main/notebooks/semana03/Consolidado_S03_splitTemporal.ipynb) → [Script](https://github.com/LaboraDev/hackathon_one_flightOnTime/blob/main/notebooks/semana03/flight_delay_pipeline.py))

### 4.1 Como o Notebook Consome o Script
| Etapa no Notebook | Função do Script Utilizada | Célula | Descrição |
| :--- | :--- | :--- | :--- |
| **Importação** | `import flight_delay_pipeline as scr` | [1] | Carrega todas as funções do módulo. |
| **Carregamento de Dados** | `scr.carregar_dataset_base()` | [3] | Lê e concatena 54 arquivos CSV da ANAC. |
| **Análise Exploratória** | `scr.eda_viz()` | [4] | Gera visualizações automáticas do dataset. |
| **Criação do Target** | `scr.criar_target_atrasado()` | [6] | Aplica regra D15 para rotular voos. |
| **Split Temporal** | `scr.criar_split_temporal_train_val_test()` | [9] | Divide dados cronologicamente. |
| **Treinamento** | `scr.treinar_classificador()` | [15] | Executa pipeline completo de ML. |
| **Explicabilidade** | `scr.explicar_global_xgb()` | [28] | Extrai importância de variáveis. |

### 4.2 Benefícios da Separação
| Dimensão | Score | Observação Técnica |
| :--- | :--- | :--- |
| **Reprodutibilidade** | 10/10 | Mesma função sempre produz mesmo resultado. |
| **Manutenção** | 10/10 | Correções no script refletem em todos os notebooks. |
| **Testabilidade** | 9/10 | Funções isoladas podem ser testadas individualmente. |
| **Legibilidade** | 10/10 | Notebook fica focado em análise, não em implementação. |

***

## 5. Regras e decisões do projeto
Estabelecemos os seguintes pontos fundamentais para a arquitetura do pipeline:

*   **Separação de Responsabilidades:** O notebook executa análises e toma decisões; o script implementa a lógica de transformação. Essa separação evita duplicação de código e facilita manutenção.
*   **Transformers Personalizados:** Criamos classes que herdam de `BaseEstimator` e `TransformerMixin` do sklearn, garantindo compatibilidade com `Pipeline` e `ColumnTransformer`. **[DatasFeaturesTransformer](attached_file:1)**
*   **Configuração Centralizada:** Constantes como `TARGET_COL`, `DEFAULT_RENAME_MAP` e `DATETIME_COLS` estão definidas no topo do script, facilitando ajustes futuros.
*   **Funções de Alto Nível:** `treinar_classificador()` encapsula todo o fluxo de treino (feature engineering → pré-processamento → modelo), permitindo chamadas simples no notebook.
*   **Preparação para API:** Funções como `salvar_pickle()` e `carregar_pickle()` preparam o terreno para integração com FastAPI, onde o modelo treinado será carregado e utilizado em tempo real.

***

## 6. Respostas às Perguntas-Chave

### 6.1 Qual é o papel do script Python no projeto?
O script [`flight_delay_pipeline.py`](https://github.com/LaboraDev/hackathon_one_flightOnTime/blob/main/notebooks/semana03/flight_delay_pipeline.py) atua como a **biblioteca central** do projeto, centralizando todas as funções críticas de processamento de dados, engenharia de features e modelagem. Ele transforma o projeto de um notebook isolado em um sistema modular e reutilizável.

### 6.2 Por que separar lógica em um script externo?
A separação traz três benefícios principais:
1. **Reutilização:** A mesma função pode ser usada em múltiplos notebooks ou na API sem duplicar código.
2. **Manutenção:** Correções de bugs ou melhorias são feitas uma vez e refletem em todo o projeto.
3. **Clareza:** O notebook fica focado em análise e visualização, não em detalhes de implementação.

### 6.3 Quais tipos de funções o script centraliza?
O script agrupa cinco categorias:
- **Utilitárias:** Carregamento de dados, renomeação de colunas, salvamento de objetos.
- **Transformers:** Classes customizadas para feature engineering (`DatasFeaturesTransformer`, `MediaAtrasoTransformer`).
- **Pipeline:** Funções que montam e executam pipelines completos (`treinar_classificador`, `montar_preprocessador`).
- **Avaliação:** Extração de métricas e criação de relatórios (`extrair_metricas`).
- **Explicabilidade:** Interpretação de modelos XGBoost (`explicar_global_xgb`, `explicar_local_xgb`).

### 6.4 Como o script ajuda na organização do pipeline?
Ele estabelece uma **hierarquia clara de responsabilidades**:
```
Notebook (Análise) → Script (Lógica) → Dados/Modelo
```
Cada etapa do pipeline (ingestão → feature engineering → treino → avaliação) possui funções dedicadas no script, eliminando código duplicado e tornando o fluxo explícito.

### 6.5 Como ele contribui para reprodutibilidade?
Todos os parâmetros críticos (seed aleatório, colunas a remover, configuração de features) estão centralizados no script. Executar `scr.treinar_classificador()` com os mesmos dados **sempre** produz o mesmo modelo, independente de quem execute ou quando.

### 6.6 Como o notebook utiliza esse script?
O notebook importa o script na [célula 1](https://github.com/LaboraDev/hackathon_one_flightOnTime/blob/main/notebooks/semana03/Consolidado_S03_splitTemporal.ipynb) e faz chamadas diretas:
```python
import flight_delay_pipeline as scr

df = scr.carregar_dataset_base(pasta='./dados_vra/dados_vra')
df_model = scr.criar_target_atrasado(df, limite_min=15)
```
Isso mantém o notebook **enxuto** (focado em decisões) e o script **denso** (focado em execução).

### 6.7 O que o script não faz (limitações)?
Atualmente, o script:
- **Não gerencia configurações externas:** Parâmetros estão hardcoded; ideal seria usar arquivos `.yaml` ou `.json`.
- **Não possui testes automatizados:** Funções críticas deveriam ter testes unitários (`pytest`).
- **Não lida com escala:** Dependência de arquivos CSV locais limita processamento de volumes muito grandes.

### 6.8 O que poderia ser expandido no futuro?
Melhorias arquiteturais planejadas:
1. **Configuração Externa:** Migrar constantes para `config.yaml` permitindo ajustes sem alterar código.
2. **Logging Estruturado:** Adicionar logs detalhados para rastreamento de execução (`logging` module).
3. **Pipeline em Nuvem:** Adaptar funções para rodar em ambientes como Google Cloud Functions ou AWS Lambda.
4. **Testes Automatizados:** Criar suite de testes com `pytest` para validar transformações.

***

## 7. Análise de Riscos Arquiteturais

| Risco | Severidade | Mitigation Strategy |
| :--- | :--- | :--- |
| **Dependências Hardcoded** | Média | Migrar para arquivo de configuração externo. |
| **Falta de Testes** | Alta | Implementar testes unitários para funções críticas. |
| **Escalabilidade Limitada** | Média | Adaptar para leitura de fontes distribuídas (Parquet/Cloud). |
| **Versionamento de Modelos** | Baixa | Implementar MLflow ou similar para tracking. |

***

## 8. Checklist de Integridade (Selo de Qualidade)
- [x] **Modularidade:** Código separado em funções com responsabilidades únicas.
- [x] **Reprodutibilidade:** Seeds e parâmetros fixos garantem resultados consistentes.
- [x] **Documentação:** Docstrings em funções críticas explicam parâmetros e retorno.
- [x] **Rastreabilidade:** Cada função do script é referenciada no notebook.
- [x] **Preparação para Produção:** Funções de serialização (pickle) prontas para deploy.

***

## 9. Blueprint de Rastreabilidade ([Script](https://github.com/LaboraDev/hackathon_one_flightOnTime/blob/main/notebooks/semana03/flight_delay_pipeline.py) → [Notebook](https://github.com/LaboraDev/hackathon_one_flightOnTime/blob/main/notebooks/semana03/Consolidado_S03_splitTemporal.ipynb))
Para auditoria técnica, utilize as referências abaixo :

| Componente do Script | Uso no Notebook | Células |
| :--- | :--- | :--- |
| `carregar_dataset_base()` | Carregamento inicial de dados | [97] |
| `criar_flags_qualidade_basicas()` | Auditoria de qualidade | [303] |
| `criar_target_atrasado()` | Geração da variável alvo | [329] |
| `criar_split_temporal_train_val_test()` | Divisão cronológica dos dados | [529] |
| `FeatureConfig` (dataclass) | Definição de features para modelagem | [620] |
| `treinar_classificador()` | Pipeline completo de treino | [654] |
| `DatasFeaturesTransformer` | Criação de features temporais | [684] |
| `MediaAtrasoTransformer` | Features agregadas de atraso | [688] |
| `salvar_pickle()` | Exportação do modelo final | [876] |
| `explicar_global_xgb()` | Importância de variáveis | [968] |


***

## 10. Conclusão

### Validação da Semana 05
A arquitetura do projeto foi consolidada com sucesso através da modularização:
- **Script Python completo** com 800+ linhas organizadas em blocos funcionais.
- **Separação clara** entre experimentação (notebook) e lógica (script).
- **Preparação para produção** com funções de serialização e estrutura compatível com APIs.

***

## Referências
- Scikit-learn. (2024). Building Pipelines and Custom Transformers. Disponível em: [Scikit-learn](https://scikit-learn.org/)
- Python Software Foundation. (2024). Python Modules and Packages. Disponível em: [Módulos Python](https://docs.python.org/3/tutorial/modules.html)
- XGBoost Documentation. (2024). Python API Reference. Disponível em: [XGBoost](https://xgboost.readthedocs.io/)
- Lei Geral de Proteção de Dados (LGPD). Lei nº 13.709, de 14 de agosto de 2018. Brasil. Disponível em: [LGPD](https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2018/lei/l13709.htm)
