# Naive Bayes para Análise de Sentimento (Exemplo Simples)

## Como funciona o Naive Bayes (explicação simples) 📘

O Naive Bayes é como um sistema de votação probabilístico baseado na frequência das palavras em diferentes categorias.

👨‍🏫 Intuição:
1. Treinamos o modelo com frases rotuladas como "positivo" ou "negativo".
2. Contamos quantas vezes cada palavra aparece em cada categoria.
3. Para uma nova frase, vemos quais palavras aparecem nela e usamos essas contagens para calcular a probabilidade da frase ser de cada categoria.
4. A categoria com maior probabilidade ganha.

👉 Fórmula base:
P(Classe | Palavras) ∝ P(Palavras | Classe) × P(Classe)

Usamos Laplace Smoothing para evitar multiplicar por zero (caso uma palavra nunca tenha aparecido antes).

Na prática:
- Se uma palavra aparece mais em textos positivos, contribui para uma classificação positiva.
- Se aparece mais em negativos, empurra a classificação para negativa.

In [2]:
# Imports iniciais
import re
from collections import defaultdict
import math


In [4]:
# Passo 1: Definir os dados de treino
textos = [
    "Adoro este produto! Funciona muito bem e deixa-me feliz.",   # Positivo
    "Odeio este artigo. Partiu-se rápido e deixou-me irritado."  # Negativo
]

labels = ["positivo", "negativo"]

# Passo 2: Pré-processamento (muito simples)
def limpar_texto(texto):
    texto = texto.lower()
    texto = re.sub(r"[^a-zà-úãéêáç0-9 ]", "", texto)
    return texto.split()

textos_limpos = [limpar_texto(t) for t in textos]

# Passo 3: Criar o vocabulário total
vocabulario = sorted(set(palavra for texto in textos_limpos for palavra in texto))
print("Vocabulário:", vocabulario)

Vocabulário: ['adoro', 'artigo', 'bem', 'deixame', 'deixoume', 'e', 'este', 'feliz', 'funciona', 'irritado', 'muito', 'odeio', 'partiuse', 'produto', 'rápido']


In [6]:
# Passo 4: Contar as palavras por classe
contagens = {
    "positivo": defaultdict(int),
    "negativo": defaultdict(int)
}

total_palavras = {"positivo": 0, "negativo": 0}

for texto, label in zip(textos_limpos, labels):
    for palavra in texto:
        contagens[label][palavra] += 1
        total_palavras[label] += 1

print("\nContagens por classe:")
print("positivo => ", dict(contagens["positivo"]))
print("negativo => ", dict(contagens["negativo"]))


Contagens por classe:
positivo =>  {'adoro': 1, 'este': 1, 'produto': 1, 'funciona': 1, 'muito': 1, 'bem': 1, 'e': 1, 'deixame': 1, 'feliz': 1}
negativo =>  {'odeio': 1, 'este': 1, 'artigo': 1, 'partiuse': 1, 'rápido': 1, 'e': 1, 'deixoume': 1, 'irritado': 1}


In [15]:
# Passo 5: Definir a função de predição com Naive Bayes + Laplace
def prever(texto_novo):
    texto_proc = limpar_texto(texto_novo)
    vocab_size = len(vocabulario)
    probs = {}

    for classe in ["positivo", "negativo"]:
        probs[classe] = math.log(0.5)

        for palavra in texto_proc:
            contagem = contagens[classe][palavra]
            prob_palavra = (contagem + 1) / (total_palavras[classe] + vocab_size)
            probs[classe] += math.log(prob_palavra)

    #print("Probabilidades:", probs) #Descomentar se quizer ver as probalidades
    return max(probs, key=probs.get)

# Testar com uma frase nova
frase_teste = "Este produto deixa-me feliz"
#frase_teste = "fiquei irritado com essa merda"
resultado = prever(frase_teste)
print("\nFrase de teste:", frase_teste)
print("Classificação prevista:", resultado)


Frase de teste: Este produto deixa-me feliz
Classificação prevista: positivo
