In [2]:
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
import pandas as pd
import numpy as np

In [4]:
df = pd.read_csv("spam_or_not_spam.csv")
df.head()

Unnamed: 0,email,label
0,date wed NUMBER aug NUMBER NUMBER NUMBER NUMB...,0
1,martin a posted tassos papadopoulos the greek ...,0
2,man threatens explosion in moscow thursday aug...,0
3,klez the virus that won t die already the most...,0
4,in adding cream to spaghetti carbonara which ...,0


In [None]:
X = df['email'] # <--- variável alvo 
y = df['label'] # <--- variável/dados de entrada

In [6]:
# Exibe as primeiras 5 linhas das features e da variável alvo para verificação
print("--- Features (X) ---")
print(X.head())
print("\n--- Variável Alvo (y) ---")

--- Features (X) ---
0     date wed NUMBER aug NUMBER NUMBER NUMBER NUMB...
1    martin a posted tassos papadopoulos the greek ...
2    man threatens explosion in moscow thursday aug...
3    klez the virus that won t die already the most...
4     in adding cream to spaghetti carbonara which ...
Name: email, dtype: object

--- Variável Alvo (y) ---


In [8]:
# Exibe as dimensões dos dataframes resultantes
print(f"\nDimensões de X: {X.shape}")
print(f"Dimensões de y: {y.shape}")


Dimensões de X: (3000,)
Dimensões de y: (3000,)


In [9]:
# 1. Limpeza de dados: Lidar com valores ausentes
# Vamos substituir os valores 'nan' por uma string vazia para evitar erros 
# Corrreção que se não feito o valor nan que tem nos dados causa erro "np.nan"
df['email'] = df['email'].fillna('')

In [10]:
# Vetorização da coluna "email"
# Cria o vetorizador
vetorizador = CountVectorizer()

In [13]:
# O .fit_transform() faz duas coisas:
# a) "Aprende" o vocabulário (todas as palavras únicas do seu dataset)
# b) Transforma cada e-mail em um vetor de contagem de palavras
X = vetorizador.fit_transform(df['email'])

In [14]:
# O resultado `X` é uma matriz esparsa (para economizar memória)
# Vamos ver a sua forma:
print("Formato da matriz vetorizada (amostras, palavras únicas):")
print(X.shape)
print("\nPrimeiro e-mail vetorizado:")
print(X[0])

Formato da matriz vetorizada (amostras, palavras únicas):
(3000, 34116)

Primeiro e-mail vetorizado:
<Compressed Sparse Row sparse matrix of dtype 'int64'
	with 121 stored elements and shape (1, 34116)>
  Coords	Values
  (0, 6850)	1
  (0, 32219)	1
  (0, 19450)	42
  (0, 2223)	1
  (0, 11120)	4
  (0, 4906)	1
  (0, 11393)	1
  (0, 6675)	1
  (0, 6853)	1
  (0, 19686)	1
  (0, 7065)	2
  (0, 5424)	2
  (0, 17702)	1
  (0, 13507)	1
  (0, 29719)	1
  (0, 31670)	1
  (0, 4236)	1
  (0, 24913)	1
  (0, 29481)	3
  (0, 9448)	2
  (0, 10817)	1
  (0, 17528)	1
  (0, 14711)	1
  (0, 14633)	4
  (0, 31530)	1
  :	:
  (0, 11586)	1
  (0, 6392)	1
  (0, 15739)	1
  (0, 23505)	1
  (0, 28109)	1
  (0, 5298)	1
  (0, 10885)	1
  (0, 6879)	1
  (0, 923)	1
  (0, 12579)	1
  (0, 2798)	1
  (0, 355)	1
  (0, 29756)	1
  (0, 24230)	1
  (0, 6663)	1
  (0, 24894)	1
  (0, 29766)	1
  (0, 16631)	1
  (0, 25580)	1
  (0, 14697)	1
  (0, 29463)	1
  (0, 27)	1
  (0, 9794)	2
  (0, 32674)	2
  (0, 17065)	1


In [15]:
# Dividir treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
# Treinar modelo de classificação
modelo = MultinomialNB()
modelo.fit(X_train, y_train)

"""
MultinomialNB <--- Para explicar, porque o github não rederizou
Parameters 
alpha - 1.0 
force_alpha - True 
fit_prior - True 
class_prior  - None
"""

0,1,2
,alpha,1.0
,force_alpha,True
,fit_prior,True
,class_prior,


In [None]:
# Testar modelo
exemplo = ["Meeting with the board."]
X_exemplo = vetorizador.transform(exemplo)
# 1 = spam, 0 = não spam
print("É spam?", modelo.predict(X_exemplo)[0])

É spam? 0
