# 📘 Naive Bayes

O **Naive Bayes** é uma família de classificadores probabilísticos baseados no **Teorema de Bayes**, com a suposição “ingênua” (*naive*) de que as variáveis preditoras são **independentes entre si**, dado o rótulo da classe.

---

## 🧮 Teorema de Bayes

O teorema de Bayes descreve a probabilidade de um evento \( A \) ocorrer, dado que \( B \) ocorreu:

$$
P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}
$$

Em um contexto de classificação, ele é usado para calcular a probabilidade de uma classe \( C_k \) dado um vetor de atributos \( x = (x_1, x_2, ..., x_n) \):

$$
P(C_k|x) = \frac{P(x|C_k) \cdot P(C_k)}{P(x)}
$$

Como \( P(x) \) é igual para todas as classes, ele pode ser ignorado na decisão final. Assim:

$$
P(C_k|x) \propto P(x|C_k) \cdot P(C_k)
$$

---

## 💡 Suposição de Independência

O modelo assume que as variáveis $( x_i $) são **condicionalmente independentes** entre si dado \( C_k \):

$$
P(x|C_k) = \prod_{i=1}^{n} P(x_i | C_k)
$$

Essa simplificação torna o cálculo muito mais eficiente, mesmo que a independência raramente seja verdadeira na prática.

---

## 🧠 Tipos de Naive Bayes

Existem diferentes variantes do algoritmo, dependendo da distribuição dos dados:

1. **Gaussian Naive Bayes (`GaussianNB`)**  
   - Usado quando as features são contínuas e seguem uma **distribuição normal**.

2. **Multinomial Naive Bayes (`MultinomialNB`)**  
   - Usado para **contagens discretas**, como frequência de palavras em documentos (comum em NLP).

3. **Bernoulli Naive Bayes (`BernoulliNB`)**  
   - Usado para **dados binários** (ex.: presença ou ausência de uma palavra).

---

## ⚙️ Fórmulas Específicas

### 1. Gaussian Naive Bayes

Para cada atributo contínuo \( x_i \), assume-se uma distribuição normal:

$$
P(x_i | C_k) = \frac{1}{\sqrt{2\pi\sigma_k^2}} \exp\left(-\frac{(x_i - \mu_k)^2}{2\sigma_k^2}\right)
$$

onde $\mu_k$ e $\sigma_k$ são a média e o desvio padrão do atributo $x_i$ na classe $C_k$.

---

## 📈 Vantagens

- Extremamente rápido e eficiente, mesmo com muitos atributos.
- Funciona bem com **dados textuais** e **alta dimensionalidade**.
- Requer **poucos dados de treino**.

---

## ⚠️ Desvantagens

- A suposição de **independência entre atributos** raramente é verdadeira.
- Pode ter **baixa performance** quando as features são fortemente correlacionadas.
- As probabilidades resultantes podem ser **mal calibradas**.

---

## 💬 Exemplo de Aplicação

- Classificação de e-mails como *spam* ou *não spam*  
- Análise de sentimento em textos  
- Diagnóstico médico (probabilístico)

---


### 🧠 1. **Gaussian Naive Bayes (`GaussianNB`)**

#### 📍 Quando usar:
- Quando as **features são contínuas** (valores reais) e **aproximadamente seguem uma distribuição normal (gaussiana)**.  
- Usado em problemas em que as variáveis são medidas numéricas e independentes (ou quase).

#### 💼 Exemplos reais:
- **Diagnóstico médico probabilístico**, onde cada atributo representa um exame (ex.: pressão, nível de glicose, colesterol).  
- **Reconhecimento de dígitos (MNIST)**, quando as intensidades dos pixels são tratadas como variáveis contínuas.  
- **Detecção de fraudes** com variáveis contínuas como valores monetários e tempos de transação.

#### 💬 Dica:
Mesmo que os dados **não sejam perfeitamente gaussianos**, o modelo ainda tende a funcionar bem — ele é robusto à violação leve da suposição de normalidade.

---

### 🔢 2. **Multinomial Naive Bayes (`MultinomialNB`)**

#### 📍 Quando usar:
- Quando as features representam **contagens inteiras não negativas**, especialmente em **dados textuais**.  
- Usado em casos onde o valor de cada variável é uma **frequência** (como o número de vezes que uma palavra aparece).

#### 💼 Exemplos reais:
- **Classificação de e-mails (spam / não spam)** com contagem de palavras (Bag of Words).
- **Análise de sentimento** (positivo/negativo) em textos.
- **Classificação de documentos** por tema (ex.: esportes, política, tecnologia).

#### 💬 Dica:
O `MultinomialNB` é o **mais usado em NLP (Processamento de Linguagem Natural)**, e costuma servir como *baseline* em pipelines de texto — simples, rápido e eficaz.

---

### ⚫ 3. **Bernoulli Naive Bayes (`BernoulliNB`)**

#### 📍 Quando usar:
- Quando as features são **binárias (0 ou 1)** — indicando presença ou ausência de uma característica.  
- Ideal para dados de texto **binarizados** (por exemplo, se uma palavra aparece ou não, sem contar frequência).

#### 💼 Exemplos reais:
- **Filtragem de spam** baseada na presença de certas palavras.  
- **Classificação de textos curtos** (ex.: tweets, títulos de notícias) onde a contagem de palavras é menos informativa.  
- **Análise de características booleanas**, como se um usuário realizou ou não determinada ação.

#### 💬 Dica:
O BernoulliNB é útil quando a **presença** de uma feature importa mais que sua **quantidade**.  
Exemplo: “se o texto contém a palavra *‘promoção’*, é um spam — não importa quantas vezes”.

---

### 🧩 Comparativo rápido

| Tipo | Tipo de dado | Exemplo típico | Vantagem |
|------|---------------|----------------|-----------|
| **GaussianNB** | Contínuo | Exames médicos, sensores, imagem | Simples, rápido, lida bem com dados reais |
| **MultinomialNB** | Contagens (inteiros) | Textos, NLP, classificação de documentos | Muito eficaz e rápido em texto |
| **BernoulliNB** | Binário (0/1) | Presença/ausência de palavras | Ideal para dados booleanos |

---

### ⚙️ Dica prática: escolha assim

- 📄 **Texto:** `MultinomialNB`  
- ⚙️ **Atributos binários:** `BernoulliNB`  
- 📈 **Atributos contínuos:** `GaussianNB`  
- 🧪 **Dataset pequeno e ruídoso:** Naive Bayes costuma se sair bem devido à simplicidade do modelo.


In [1]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report

# 1. Carregar dataset de exemplo
data = load_iris()
X = data.data
y = data.target

# 2. Dividir em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 3. Criar e treinar o modelo
nb = GaussianNB()
nb.fit(X_train, y_train)

# 4. Fazer previsões
y_pred = nb.predict(X_test)

# 5. Avaliar desempenho
print("Acurácia:", accuracy_score(y_test, y_pred))
print("\nRelatório de Classificação:\n", classification_report(y_test, y_pred))




Acurácia: 1.0

Relatório de Classificação:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      1.00      1.00         9
           2       1.00      1.00      1.00        11

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30



In [3]:
y

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])