O Conceito Rápido (Flash Review)
Imagine que você tem uma frase e joga todas as palavras dentro de um saco, sacode e tira uma por uma.

O que você perde: A ordem das palavras (quem fez o quê). "O cão mordeu o homem" vira matematicamente igual a "O homem mordeu o cão" .

O que você ganha: Uma lista de frequências. Você sabe que a palavra "mordeu" apareceu 1 vez, "cão" 1 vez, etc.

O documento destaca dois tipos principais :

Binário: Só marca 0 (não tem) ou 1 (tem). Bom para saber se um tema está presente.

Contagem (Count): Conta quantas vezes aparece (ex: 2, 5, 10). Bom para dar peso a palavras repetidas.

In [2]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

# 1. Nosso Corpus (Dados de Entrada)
mensagens = [
    "Promoção imperdível! Ganhe dinheiro rápido agora.",  # Spam
    "Oi, você vem para a reunião de hoje?",              # Normal
    "Reunião confirmada. Não esqueça o dinheiro do almoço." # Normal (mas tem a palavra 'dinheiro')
]

# 2. Criando a Máquina de BOW (CountVectorizer)
# O scikit-learn já faz tudo: tokeniza, limpa, cria o vocabulário e conta.
vectorizer = CountVectorizer()

# 3. Aprendendo o vocabulário e transformando em números
# fit_transform faz duas coisas:
#   - fit: Aprende todas as palavras únicas do corpus (cria as colunas)
#   - transform: Conta as palavras em cada frase (preenche as linhas)
matriz_bow = vectorizer.fit_transform(mensagens)

# 4. Visualizando o Resultado (Transformando em Tabela para facilitar)
# No mercado, usamos DataFrames para inspecionar essas matrizes
df_bow = pd.DataFrame(
    matriz_bow.toarray(), 
    columns=vectorizer.get_feature_names_out(),
    index=["Msg 1 (Spam)", "Msg 2 (Normal)", "Msg 3 (Normal)"]
)

print("--- Vocabulário Aprendido (Features) ---")
print(vectorizer.get_feature_names_out())

print("\n--- Representação Matemática (Matriz BOW) ---")
print(df_bow)

--- Vocabulário Aprendido (Features) ---
['agora' 'almoço' 'confirmada' 'de' 'dinheiro' 'do' 'esqueça' 'ganhe'
 'hoje' 'imperdível' 'não' 'oi' 'para' 'promoção' 'reunião' 'rápido' 'vem'
 'você']

--- Representação Matemática (Matriz BOW) ---
                agora  almoço  confirmada  de  dinheiro  do  esqueça  ganhe  \
Msg 1 (Spam)        1       0           0   0         1   0        0      1   
Msg 2 (Normal)      0       0           0   1         0   0        0      0   
Msg 3 (Normal)      0       1           1   0         1   1        1      0   

                hoje  imperdível  não  oi  para  promoção  reunião  rápido  \
Msg 1 (Spam)       0           1    0   0     0         1        0       1   
Msg 2 (Normal)     1           0    0   1     1         0        5       0   
Msg 3 (Normal)     0           0    1   0     0         0        1       0   

                vem  você  
Msg 1 (Spam)      0     0  
Msg 2 (Normal)    1     1  
Msg 3 (Normal)    0     0  
