# Naive Bayes - Explica√ß√£o Simples

**Naive Bayes** √© um algoritmo de classifica√ß√£o baseado em probabilidades que usa o Teorema de Bayes.

## Como funciona?

1. **Aprende com exemplos**: calcula probabilidades de cada caracter√≠stica para cada classe
2. **Faz previs√µes**: multiplica as probabilidades e escolhe a classe com maior valor
3. **Assume independ√™ncia**: trata cada caracter√≠stica como independente (por isso "naive" = ing√™nuo)

## F√≥rmula:
$$P(\text{Classe} | \text{Caracter√≠sticas}) \propto P(\text{Caracter√≠sticas} | \text{Classe}) \times P(\text{Classe})$$

## Exemplo deste notebook:
Vamos prever se algu√©m tem **diabetes** baseado em:
- Atividade f√≠sica
- Acima do peso
- Hist√≥rico familiar

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.naive_bayes import GaussianNB

In [14]:
df = pd.DataFrame(
    {
        "atividade fisica": [1, 0, 0, 0, 1, 1, 0],
        "acima do peso": [1, 1, 1, 0, 0, 1, 0],
        "historico familiar": [1, 1, 0, 1, 1, 0, 0],
        "diabetes": [1, 1, 1, 1, 0, 0, 0],
    }
)
df.head()

Unnamed: 0,atividade fisica,acima do peso,historico familiar,diabetes
0,1,1,1,1
1,0,1,1,1
2,0,1,0,1
3,0,0,1,1
4,1,0,1,0


## Treinando o Modelo

In [19]:
# Separar caracter√≠sticas (X) e alvo (y)
X = df[["atividade fisica", "acima do peso", "historico familiar"]]
y = df["diabetes"]

# Criar e treinar o modelo
modelo = GaussianNB()
modelo.fit(X, y)

## Fazendo Previs√µes

In [20]:
# Novo paciente: [ativ_fisica, acima_peso, hist_familiar]
novo_paciente = [[0, 1, 1]]  # N√£o faz atividade, acima do peso, tem hist√≥rico

# Prever se tem diabetes
previsao = modelo.predict(novo_paciente)
probabilidades = modelo.predict_proba(novo_paciente)

print(f"Previs√£o: {'TEM diabetes' if previsao[0] == 1 else 'N√ÉO tem diabetes'}")
print(f"Probabilidades: N√£o={probabilidades[0][0]:.2%}, Sim={probabilidades[0][1]:.2%}")

Previs√£o: TEM diabetes
Probabilidades: N√£o=4.55%, Sim=95.45%




## Papel de p√£o üçû

- **Sobre o algoritmo:**
    - **Motiva√ß√£o e conceito**: algoritmo probabil√≠stico baseado no Teorema de Bayes para classifica√ß√£o, que calcula a probabilidade de um dado pertencer a cada classe e escolhe a mais prov√°vel
    - **Exemplo**: filtro de spam - calcula P(Spam | palavras) e P(Normal | palavras) para classificar emails
    - **Como funciona?**
        - Fase de treino: calcula probabilidades a priori P(Classe) e probabilidades condicionais P(Feature|Classe)
        - Fase de predi√ß√£o: aplica Teorema de Bayes para cada classe e escolhe a de maior probabilidade
        - F√≥rmula: $P(Classe|X) = \frac{P(X|Classe) \times P(Classe)}{P(X)}$
    - **Pseudoc√≥digo:**
        ```
        Treino:
            Para cada classe c:
                Calcular P(c) = quantidade_c / total
                Para cada feature f:
                    Calcular P(f|c) usando distribui√ß√£o apropriada
        
        Predi√ß√£o:
            Para cada classe c:
                score[c] = P(c)
                Para cada feature f:
                    score[c] *= P(f|c)
            Retornar classe com maior score
        ```
    - **Tipos de Naive Bayes:**
        - **GaussianNB**: features cont√≠nuas com distribui√ß√£o normal
        - **MultinomialNB**: contagem de frequ√™ncias (texto, palavras)
        - **BernoulliNB**: features bin√°rias (0 ou 1)
        - **ComplementNB**: para datasets desbalanceados
    - **Suaviza√ß√£o (Smoothing)**:
        - Laplace smoothing: evita probabilidade zero para features n√£o vistas
        - Adiciona um pequeno valor (alpha) √†s contagens
    
- **Conclus√µes sobre o apresentado:**
    - Aceita vari√°veis num√©ricas e categ√≥ricas (depende do tipo)
    - Algoritmo **parametrizado** (aprende par√¢metros como m√©dia e vari√¢ncia)
    - **Eager learning** (aprende na fase de treino)
    - Baseado em probabilidades
    - Complexidade linear O(n√óm) - n amostras, m features
    - Assume **independ√™ncia entre features** (naive = ing√™nuo)

- **Outliers impactam:**
    - Afetam c√°lculo de m√©dia e vari√¢ncia (GaussianNB)
    - Podem distorcer probabilidades condicionais
    - Solu√ß√£o: pr√©-processamento e remo√ß√£o de outliers

- **Normaliza√ß√£o:**
    - GaussianNB: **n√£o obrigat√≥rio**, pois trabalha com probabilidades
    - Pode trazer benef√≠cios para converg√™ncia e estabilidade num√©rica
    - Importante quando features t√™m escalas muito diferentes

- **Vantagens:**
    - R√°pido para treinar e prever
    - Funciona bem com poucos dados
    - N√£o sofre com curse of dimensionality (alta dimensionalidade)
    - Suporta multiclasse naturalmente
    - Interpret√°vel (mostra probabilidades)
    - √ìtimo para classifica√ß√£o de texto

- **Desvantagens:**
    - Assume independ√™ncia entre features (raramente verdadeiro)
    - Desempenho inferior se features s√£o correlacionadas
    - Sens√≠vel a desbalanceamento de classes
    - GaussianNB assume distribui√ß√£o normal dos dados
    - Problema do "zero-frequency" (palavra nunca vista)
        - Solu√ß√£o: Laplace smoothing (alpha=1)