## 🧪 **Métricas de Avaliação – Modelos de Classificação**

As métricas servem para **avaliar o desempenho do modelo com base nas predições versus os rótulos reais**. A escolha da métrica **depende do contexto do problema**, principalmente da **distribuição das classes**.

---

### ✅ **Acurácia (Accuracy)**

* **Interpretação**: Proporção de acertos (predições corretas) sobre o total.
* **Exemplo prático**: Em 100 pacientes, o modelo acerta 90 → acurácia = 90%.
* **Limitação**: **Enganosa em problemas desbalanceados** (ex: acerta tudo da classe majoritária e erra a minoritária).
* **Usar quando**: As classes estão **bem balanceadas** e **todas têm igual importância**.

---

### 🎯 **Precisão (Precision)**

* **Interpretação**: Entre as **predições positivas**, quantas estavam certas?
  $Precision = TP / (TP + FP)$
* **Exemplo prático**: O modelo prevê 20 fraudes, mas só 10 eram realmente fraudes → precisão = 50%.
* **Limitação**: Ignora os falsos negativos (FN).
* **Usar quando**: O **custo de um falso positivo é alto** (ex: não quer acusar alguém injustamente).

---

### 🧲 **Recall (Sensibilidade / Revocação)**

* **Interpretação**: Entre os **casos positivos reais**, quantos o modelo encontrou?
  $Recall = TP / (TP + FN)$
* **Exemplo prático**: Há 20 fraudes reais, o modelo detecta 15 → recall = 75%.
* **Limitação**: Pode ser alto mesmo que a precisão seja baixa.
* **Usar quando**: O **custo de um falso negativo é alto** (ex: não pode perder uma fraude ou um paciente com doença grave).

---

### ⚖️ **F1-Score**

* **Interpretação**: Média harmônica entre precisão e recall. Balanceia os dois.
  $F1 = 2 * (Precision * Recall) / (Precision + Recall)$
* **Exemplo prático**: Se precisão = 0.6 e recall = 0.8, F1 ≈ 0.69.
* **Limitação**: Não mostra o desempenho de cada classe separadamente.
* **Usar quando**: O problema é **desbalanceado** e precisa **equilibrar FP e FN**.

---

### 🔢 **Matriz de Confusão**

* **Interpretação**: Tabela que mostra **acertos e erros por classe** (TP, FP, FN, TN).
* **Exemplo prático**: Útil para ver **em que classes o modelo erra mais**.
* **Limitação**: Não resume em um número — requer análise visual.
* **Usar quando**: Quer entender **onde exatamente o modelo está errando**.

---

### 📊 **AUC-ROC (Área sob a curva ROC)**

* **Interpretação**: Mede a **capacidade de separação** do modelo entre classes positivas e negativas.
* **Exemplo prático**: AUC = 0.9 → o modelo tem 90% de chance de ranquear um positivo acima de um negativo.
* **Limitação**: Pode ser otimista em datasets muito desbalanceados.
* **Usar quando**: Modelo **probabilístico** ou quando quer **avaliar a separação global**.

---

### 📈 **Curva Precision-Recall (PR Curve)**

* **Interpretação**: Mostra a troca entre precisão e recall para diferentes thresholds.
* **Exemplo prático**: Útil para analisar desempenho em classes **raras**.
* **Limitação**: Não tão intuitiva quanto ROC.
* **Usar quando**: O **dataset é altamente desbalanceado**.

---

## 📌 **Resumo prático: qual usar quando?**

| Situação                      | Métrica recomendada                  |
| ----------------------------- | ------------------------------------ |
| Classes balanceadas           | **Acurácia**                         |
| Classes desbalanceadas        | **F1-Score**, **Matriz de Confusão** |
| Falsos positivos são críticos | **Precisão**                         |
| Falsos negativos são críticos | **Recall**                           |
| Modelo gera probabilidades    | **AUC-ROC**, **PR Curve**            |
