In [2]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB

# 1. Dados de Treino (Ensino)
mensagens = [
    "Promoção imperdível! Ganhe dinheiro rápido agora.", # Spam
    "Oi, você vem para a reunião de hoje?",              # Normal
    "Reunião confirmada. Não esqueça o dinheiro."        # Normal (Pegadinha!)
]
# Gabarito: 1 = Spam, 0 = Normal
gabarito = [1, 0, 0] 

# 2. Transformando Texto em Números (TF-IDF)
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(mensagens)

# 3. Treinando o Cérebro (Naive Bayes)
# O modelo vai olhar a matriz X e o gabarito e calcular as probabilidades
modelo = MultinomialNB()
modelo.fit(X, gabarito)

# 4. Inspecionando o Cérebro da IA (Vendo os Pesos)
# Vamos ver qual a probabilidade que ele atribuiu para cada palavra ser Spam
pesos = pd.DataFrame({
    'Palavra': vectorizer.get_feature_names_out(),
    'Peso (Probabilidade de ser Spam LOG)': modelo.feature_log_prob_[1] # Pega os pesos da classe 1 (Spam)
})

# Ordenando para ver as "mais culpadas" primeiro
print(pesos.sort_values(by='Peso (Probabilidade de ser Spam)', ascending=False).head(20))

       Palavra  Peso (Probabilidade de ser Spam)
0        agora                         -2.561422
5        ganhe                         -2.561422
7   imperdível                         -2.561422
11    promoção                         -2.561422
13      rápido                         -2.561422
3     dinheiro                         -2.635319
2           de                         -2.914467
1   confirmada                         -2.914467
6         hoje                         -2.914467
4      esqueça                         -2.914467
9           oi                         -2.914467
8          não                         -2.914467
10        para                         -2.914467
12     reunião                         -2.914467
14         vem                         -2.914467
15        você                         -2.914467
