# 03 - Avaliação Final dos Modelos de Classificação

Responsável: Yann e Sabrina

Este notebook realiza a avaliação comparativa final dos modelos desenvolvidos no projeto Fetal Health Classification.
Após a fase de modelagem (Notebook 02), onde testamos diversos algoritmos e suas combinações de hiperparâmetros, agora iremos:

1. Carregar os resultados consolidados gerados no processo de cross-validation
2. Selecionar automaticamente a melhor configuração de cada modelo com base no F1-Score médio
3. Organizar e visualizar as métricas em uma tabela comparativa
4. Gerar gráficos para análise visual do desempenho
5. Discutir os resultados e apontar qual modelo apresentou o melhor balanceamento entre precisão e sensibilidade

In [None]:
import sys
import os

sys.path.append(os.path.abspath(".."))

from src.evaluating import (
    load_results,
    show_metrics_table,
    plot_f1_comparison
)

## 1. Carregar as métricas

Os arquivos CSV contendo as métricas foram gerados no notebook anterior [Modelagem](02_modeling.ipynb).
Cada CSV corresponde a um algoritmo (ex.: KNN, Decision Tree, Logistic Regression) e contém as estatísticas do desempenho obtido nos 10 folds do **StratifiedKFold**.

Antes de iniciarmos qualquer análise, **precisamos carregar esses arquivos**, extrair a melhor configuração de cada modelo e consolidá-los em um único DataFrame.


In [None]:
csv_dir = "../results/metrics"

file_map = {
    "KNN": "KNN_results.csv",
    "Decision Tree": "DecisionTree_results.csv",
    "Logistic Regression": "LogisticRegression_results.csv",
    "MLP": "MLP_results.csv",
    "Naive Bayes": "NaiveBayes_results.csv"
}

df_best = load_results(csv_dir, file_map)

## 2 Tabela Comparativa de Métricas

Com os dados carregados e a melhor configuração de cada modelo selecionada, é importante visualizar suas métricas de forma organizada.
Vamos exibir, de maneira formatada, as principais medidas estatísticas:

- **Mean Accuracy**
- **Mean Precision**
- **Mean Recall**
- **Mean F1-Score**


In [None]:
show_metrics_table(df_best)

## 3. Comparação Visual dos Modelos com F1-Score

Após visualizar a tabela, vamos gerar um **gráfico de barras** comparando o desempenho dos modelos com base no **F1-Score médio**.

O **F1-Score** é uma métrica fundamental neste projeto porque:

- Concilia **Precision** e **Recall** em uma única medida  
- Penaliza modelos que sacrificam demais uma métrica para melhorar a outra  
- É altamente relevante para problemas de saúde, onde falsos positivos e falsos negativos têm impactos graves  
- É menos sensível a desbalanceamentos, comuns em classificações biomédicas



In [None]:
fig_dir = "../results/figures"

plot_f1_comparison(
    df_best,
    save_path=os.path.join(fig_dir, "comparativo_f1.png")
)