## O que é o algoritmo de Naive Bayes?

O algoritmo **Naive Bayes** é um método de aprendizado de máquina que faz previsões com base no [Teorema de Bayes](https://pt.wikipedia.org/wiki/Teorema_de_Bayes).

Ele assume que as características (variáveis) usadas para fazer a previsão **são independentes entre si**, o que é uma simplificação (daí o termo *"naive"* ou *ingênuo*).

O modelo calcula a probabilidade de uma instância pertencer a uma classe específica usando a **probabilidade condicional** das características, dadas essa classe.

---

### 🛠️ Aplicações

- Classificação de textos
- Filtros de spam
- Cenários onde a independência entre variáveis é uma suposição aceitável

---

### ✅ Vantagens

- **Simples e eficiente**
- **Fácil de implementar**
- Especialmente útil **para conjuntos de dados grandes**

![image.png](attachment:image.png)

Suponha que:

- **A** seja a presença de uma doença  
- **B** seja um resultado positivo em um teste

As probabilidades podem ser interpretadas da seguinte forma:

- **P(A | B)**: Probabilidade de ter a doença **dado** que o teste deu positivo.
- **P(B | A)**: Probabilidade de o teste dar positivo **dado** que a pessoa tem a doença.
- **P(A)**: Probabilidade geral de uma pessoa ter a doença (sem considerar o teste).
- **P(B)**: Probabilidade geral de obter um resultado positivo no teste (incluindo falsos positivos).

---

✅ Essa interpretação é a base para o uso de **Naive Bayes** em problemas de classificação, como detecção de doenças, filtros de spam, e muito mais!

# 📊 Métricas de Classificação

## ✅ Acurácia

A **acurácia** é a proporção de instâncias **corretamente classificadas** em relação ao **total de instâncias**.

> Apesar de fácil interpretação, pode ser **enganosa em conjuntos desbalanceados**, pois favorece a classe majoritária.

**Fórmula:**

(TP + TN) / Total de instancias

---

## 🎯 Precisão

A **precisão** é a razão de instâncias **verdadeiramente positivas** em relação ao **total de instâncias classificadas como positivas**.

> A precisão é importante quando o **custo de falsos positivos é alto**.

**Fórmula:**

TP / (TP + FP)

---

### 🧾 Legenda:
- **TP**: Verdadeiros Positivos (True Positives)  
- **TN**: Verdadeiros Negativos (True Negatives)  
- **FP**: Falsos Positivos (False Positives)  
- **FN**: Falsos Negativos (False Negatives)  

## 🎯 Acurácia x Precisão

Um cenário em que a **precisão** é mais apropriada que a **acurácia** como métrica de validação ocorre quando há um **desequilíbrio significativo nas classes** do conjunto de dados.

📌 **Exemplo**:  
Suponha que você esteja desenvolvendo um modelo para detectar fraudes em transações financeiras, onde:

- A maioria das transações é **legítima** (classe negativa)  
- Apenas uma pequena porcentagem é **fraudulenta** (classe positiva)

---

### ⚠️ Problema com a Acurácia

Se o modelo classificar **todas** as transações como legítimas, a **acurácia será alta**, pois a maioria das previsões estará correta.

No entanto, isso **não é útil**, já que o objetivo é **identificar as transações fraudulentas**.

---

### ✅ Vantagem da Precisão

Neste caso, a **precisão** — isto é:

## 📈 Recall

O **Recall** mede a proporção de instâncias **verdadeiramente positivas** que foram corretamente identificadas pelo modelo.

> É crucial quando o **custo de falsos negativos é alto** (por exemplo, em diagnósticos médicos ou detecção de fraudes).

**Fórmula:**

TP / (TP + FN)

---

## ⚖️ F1-Score

O **F1-Score** é a **média harmônica entre Precisão e Recall**, fornecendo uma única métrica que **equilibra ambas**.

> É especialmente útil quando há um **desequilíbrio entre as classes**.

**Fórmula:**

2 * (Precisao * Recall / (Precisao + Recall))

---

### 🧾 Legenda:
- **TP**: Verdadeiros Positivos  
- **FN**: Falsos Negativos  

## ⚖️ Acurácia x Precisão x Recall

O **Recall** é uma métrica apropriada quando o custo associado aos **falsos negativos** é alto e o objetivo é **minimizar os casos positivos erroneamente classificados como negativos**.

> 🔍 Em cenários críticos — como detecção de doenças graves ou prevenção de fraudes — priorizar o **Recall** é fundamental.

---

### 🧪 Exemplo prático:

Considere um modelo para detectar uma **doença rara**:

- Se o modelo classificar erroneamente um paciente **doente como saudável** (falso negativo), as consequências podem ser **graves**.
- Nesse caso, **maximizar o Recall** é essencial para garantir que a maioria dos casos positivos seja identificada corretamente, mesmo que isso gere alguns falsos positivos.

---

### 🧾 Conclusão:

- ✅ **Escolha Recall**: Quando o foco é **identificar a maioria dos casos positivos**, especialmente quando **falsos negativos têm consequências sérias**.
- ⚠️ **Acurácia**: Pode ser **enganosa em conjuntos desbalanceados**.
- 🎯 **Precisão**: É melhor quando o **custo dos falsos positivos** é elevado.

## Acurácia x Precisão x Recall x F1-Score

O **F1-Score** é uma métrica apropriada quando há um **equilíbrio desejado entre Precisão e Recall**, e **ambas são igualmente importantes**.

📌 **Exemplo:**  
Classificação de e-mails como **spam** ou **não-spam**.

---

### 📬 Cenário:

É crucial:

- Identificar a **maioria dos e-mails de spam** → **Recall**
- Garantir que os e-mails classificados como spam sejam **realmente spam** → **Precisão**

A **acurácia pode ser enganosa** nesse contexto, principalmente se a maioria dos e-mails **não for spam**.

🧮 O **F1-Score** considera **tanto a Precisão quanto o Recall**, gerando uma **métrica única e equilibrada**.

---

### 🧾 Conclusão:

- Use o **F1-Score** quando for necessário **equilibrar Precisão e Recall**.
- Ele é ideal para cenários onde **ambas as métricas são críticas** para avaliar a performance do modelo.
