# Classificador Naive Bayes com scikit-learn
Este notebook demonstra como usar o classificador Naive Bayes para detectar spam com uma base de e-mails simples.

In [None]:
# Importando bibliotecas necess√°rias
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline

In [None]:
# Criando uma base de dados de e-mails com r√≥tulos 'spam' e 'ham' (n√£o-spam)
emails = [
    ("Compre agora e ganhe desconto", "spam"),
    ("Oferta exclusiva s√≥ hoje", "spam"),
    ("Reuni√£o marcada para amanh√£", "ham"),
    ("Seu relat√≥rio est√° pronto", "ham"),
]

# Separando os textos (X) dos r√≥tulos (y)
X = [x[0] for x in emails]  # Lista com os textos
y = [x[1] for x in emails]  # Lista com os r√≥tulos

In [None]:
# Criando um pipeline para transformar os textos e treinar o modelo
modelo = Pipeline([
    ("vetorizador", CountVectorizer()),  # Transforma os textos em vetores num√©ricos
    ("classificador", MultinomialNB())   # Aplica o classificador Naive Bayes
])

# Treinando o modelo
modelo.fit(X, y)

In [None]:
# Testando o modelo com uma nova frase
frase_teste = "falar sobre um desconto na reuni√£o de amanh√£, marquei um hor√°rio exclusivo"

# Fazendo a predi√ß√£o e mostrando as probabilidades
predicao = modelo.predict([frase_teste])[0]
probs = modelo.predict_proba([frase_teste])[0]

# Mostrando os resultados
print(f"Frase: '{frase_teste}'")
print(f"Classifica√ß√£o prevista: {predicao}")
print(f"Probabilidades: spam = {probs[modelo.classes_.tolist().index('spam')]:.2f}, ham = {probs[modelo.classes_.tolist().index('ham')]:.2f}")

## üß† Conclus√£o
O classificador Naive Bayes √© um modelo probabil√≠stico que usa a frequ√™ncia das palavras nos exemplos de treinamento para prever se uma nova frase √© spam ou n√£o. Mesmo com palavras neutras como 'reuni√£o', termos como 'desconto' e 'exclusivo' podem influenciar a classifica√ß√£o para spam, pois estavam associados a exemplos de spam no treinamento.