# Classificador Naive Bayes com scikit-learn
Este notebook demonstra como usar o classificador Naive Bayes para detectar spam com uma base de e-mails simples.

In [None]:
# Importando bibliotecas necessárias
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline

In [None]:
# Criando uma base de dados de e-mails com rótulos 'spam' e 'ham' (não-spam)
emails = [
    ("Compre agora e ganhe desconto", "spam"),
    ("Oferta exclusiva só hoje", "spam"),
    ("Reunião marcada para amanhã", "ham"),
    ("Seu relatório está pronto", "ham"),
]

# Separando os textos (X) dos rótulos (y)
X = [x[0] for x in emails]  # Lista com os textos
y = [x[1] for x in emails]  # Lista com os rótulos

In [None]:
# Criando um pipeline para transformar os textos e treinar o modelo
modelo = Pipeline([
    ("vetorizador", CountVectorizer()),  # Transforma os textos em vetores numéricos
    ("classificador", MultinomialNB())   # Aplica o classificador Naive Bayes
])

# Treinando o modelo
modelo.fit(X, y)

In [None]:
# Testando o modelo com uma nova frase
frase_teste = "falar sobre um desconto na reunião de amanhã, marquei um horário exclusivo"

# Fazendo a predição e mostrando as probabilidades
predicao = modelo.predict([frase_teste])[0]
probs = modelo.predict_proba([frase_teste])[0]

# Mostrando os resultados
print(f"Frase: '{frase_teste}'")
print(f"Classificação prevista: {predicao}")
print(f"Probabilidades: spam = {probs[modelo.classes_.tolist().index('spam')]:.2f}, ham = {probs[modelo.classes_.tolist().index('ham')]:.2f}")

## 🧠 Conclusão
O classificador Naive Bayes é um modelo probabilístico que usa a frequência das palavras nos exemplos de treinamento para prever se uma nova frase é spam ou não. Mesmo com palavras neutras como 'reunião', termos como 'desconto' e 'exclusivo' podem influenciar a classificação para spam, pois estavam associados a exemplos de spam no treinamento.