# Naive Bayes

## Introdução

Naive Bayes é uma abordagem estatística baseada no Teorema de Bayes, amplamente utilizada para problemas de classificação. 

## O Teorema de Bayes

O Teorema de Bayes descreve a probabilidade de um evento \( A \) dado que outro evento \( B \) ocorreu:


$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$


- \( P(A|B) \): Probabilidade posterior, ou seja, probabilidade de \( A \) dado \( B \).
- \( P(B|A) \): Probabilidade condicional de \( B \) dado \( A \).
- \( P(A) \): Probabilidade a priori de \( A \).
- \( P(B) \): Probabilidade marginal de \( B \).

## O Algoritmo Naive Bayes

O "Naive" do nome refere-se à suposição de independência entre as variáveis preditoras (ou seja, os atributos do modelo). O Naive Bayes assume que a presença de uma característica em uma classe é independente da presença de outras características.

## Tipos de Naive Bayes

1. **Gaussian Naive Bayes**: Assume que os dados seguem uma distribuição normal.
2. **Multinomial Naive Bayes**: Ideal para dados de contagem (e.g., frequência de palavras em textos).
3. **Bernoulli Naive Bayes**: Usado quando os atributos são binários (e.g., presença ou ausência de palavras).


## Problema Proposto

**Cenário:**  
Um spam detector utiliza Naive Bayes para classificar emails como "spam" ou "não spam". Suponha que você tem um conjunto de dados com palavras frequentes nos emails e deseja implementar uma versão simplificada do modelo.

### Dataset Simulado

| Email | "Oferta" | "Urgente" | "Promoção" | Classe    |
|-------|----------|-----------|------------|-----------|
| 1     | 1        | 1         | 0          | Spam      |
| 2     | 0        | 1         | 1          | Spam      |
| 3     | 1        | 0         | 0          | Não Spam  |
| 4     | 0        | 0         | 1          | Não Spam  |

Use o Naive Bayes para prever a classe de um email com as palavras "Oferta" e "Urgente" presentes.

In [1]:
emails = [
    {"Oferta": 1, "Urgente": 1, "Promoção": 0, "Classe": "Spam"},
    {"Oferta": 0, "Urgente": 1, "Promoção": 1, "Classe": "Spam"},
    {"Oferta": 1, "Urgente": 0, "Promoção": 0, "Classe": "Não Spam"},
    {"Oferta": 0, "Urgente": 0, "Promoção": 1, "Classe": "Não Spam"},
]

In [4]:
def contar_classes(emails):
    contagem = {"Spam": 0, "Não Spam": 0}
    for email in emails:
        contagem[email["Classe"]] += 1
    return contagem

In [5]:
def contar_palavras(emails, classes):
    contagem_palavras = {classe: {"Oferta": 0, "Urgente": 0, "Promoção": 0} for classe in classes}
    for email in emails:
        classe = email["Classe"]
        for palavra in ["Oferta", "Urgente", "Promoção"]:
            if email[palavra] == 1:  # se a palavra tá presente no email
                contagem_palavras[classe][palavra] += 1
    return contagem_palavras

In [6]:
def calcular_probabilidades(total_emails, contagem_classes, contagem_palavras):
    probabilidades = {"Classe": {}, "Palavras": {}}

    # probabilidade de cada classe (Spam ou Não Spam)
    for classe in contagem_classes:
        probabilidades["Classe"][classe] = contagem_classes[classe] / total_emails

    # probabilidade de cada palavra dentro de cada classe
    probabilidades["Palavras"] = contagem_palavras
    for classe in contagem_palavras:
        for palavra in contagem_palavras[classe]:
            # divide o número de vezes que a palavra aparece pelo total de emails da classe
            probabilidades["Palavras"][classe][palavra] /= contagem_classes[classe]

    return probabilidades

In [7]:
def prever_email(email, probabilidades):
    resultados = {"Spam": probabilidades["Classe"]["Spam"], "Não Spam": probabilidades["Classe"]["Não Spam"]}

    for palavra in email:
        if email[palavra] == 1:  # só considera palavras que estão no email
            resultados["Spam"] *= probabilidades["Palavras"]["Spam"][palavra]
            resultados["Não Spam"] *= probabilidades["Palavras"]["Não Spam"][palavra]

    # retorna a classe com maior probabilidade
    return max(resultados, key=resultados.get)

In [9]:
contagem_classes = contar_classes(emails)
contagem_palavras = contar_palavras(emails, contagem_classes.keys())
probabilidades = calcular_probabilidades(len(emails), contagem_classes, contagem_palavras)


novo_email = {"Oferta": 1, "Urgente": 1, "Promoção": 0}
classe_predita = prever_email(novo_email, probabilidades)


print(f"O novo email foi classificado como: {classe_predita}")

O novo email foi classificado como: Spam
