A Solução: TF-IDF
O TF-IDF é uma balança matemática que faz duas coisas ao mesmo tempo :

TF (Term Frequency): Conta a frequência (igual ao BOW). "Quanto mais aparece, melhor."

IDF (Inverse Document Frequency): Aplica uma penalidade baseada na popularidade. "Se aparece em todos os documentos, o valor cai." .

Basicamente:

Palavra comum em um texto = Pontuação Alta (É o tema!).

Palavra comum em todos os textos = Pontuação Baixa (É ruído).

Por que o BOW não é suficiente?
Imagine que você está analisando 1.000 emails. A palavra "você" vai aparecer em quase todos.

No BOW: A palavra "você" terá uma contagem altíssima. O modelo vai achar que ela é a palavra mais importante do universo.

Na Realidade: Palavras muito comuns (como "o", "que", "você") geralmente carregam pouca informação. As palavras raras (como "promoção", "urgente", "fatura") são as que realmente definem o assunto.

In [6]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

# Corpus
mensagens = [
    "Promoção imperdível! Ganhe dinheiro rápido agora.",
    "Oi, você vem para a reunião de hoje?",
    "Reunião confirmada. Não esqueça o dinheiro do almoço."
]

# Criando a Máquina TF-IDF
# O scikit-learn faz o cálculo logarítmico automaticamente
tfidf = TfidfVectorizer()

# Aprendendo e Transformando
matriz_tfidf = tfidf.fit_transform(mensagens)

# Visualizando (Comparação)
df_tfidf = pd.DataFrame(
    matriz_tfidf.toarray(), 
    columns=tfidf.get_feature_names_out(),
    index=["Msg 1 (Spam)", "Msg 2 (Normal)", "Msg 3 (Normal)"]
)

print("--- Vocabulário Aprendido (Features) ---")
print(tfidf.get_feature_names_out())

# Arredonda para 2 casas decimais para facilitar a leitura
print("--- Representação TF-IDF (Pesos) ---")
print(df_tfidf.round(2))

--- Vocabulário Aprendido (Features) ---
['agora' 'almoço' 'confirmada' 'de' 'dinheiro' 'do' 'esqueça' 'ganhe'
 'hoje' 'imperdível' 'não' 'oi' 'para' 'promoção' 'reunião' 'rápido' 'vem'
 'você']
--- Representação TF-IDF (Pesos) ---
                agora  almoço  confirmada    de  dinheiro   do  esqueça  \
Msg 1 (Spam)     0.42     0.0         0.0  0.00      0.32  0.0      0.0   
Msg 2 (Normal)   0.00     0.0         0.0  0.39      0.00  0.0      0.0   
Msg 3 (Normal)   0.00     0.4         0.4  0.00      0.31  0.4      0.4   

                ganhe  hoje  imperdível  não    oi  para  promoção  reunião  \
Msg 1 (Spam)     0.42  0.00        0.42  0.0  0.00  0.00      0.42     0.00   
Msg 2 (Normal)   0.00  0.39        0.00  0.0  0.39  0.39      0.00     0.30   
Msg 3 (Normal)   0.00  0.00        0.00  0.4  0.00  0.00      0.00     0.31   

                rápido   vem  você  
Msg 1 (Spam)      0.42  0.00  0.00  
Msg 2 (Normal)    0.00  0.39  0.39  
Msg 3 (Normal)    0.00  0.00  0.00  
