In [96]:
import pandas as pd 
import string
import nltk
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

In [97]:
def preprocess_text(text):
    # 1. Minúsculas
    text = text.lower()

    # 2. Remover pontuação
    text = text.translate(str.maketrans('', '', string.punctuation))

    # 3. Remover stopwords
    stop_words = set(stopwords.words('english'))
    words = text.split()
    filtered_words = [word for word in words if word not in stop_words]
    
    return " ".join(filtered_words)

In [98]:
df = pd.read_csv('../data/spam.csv', encoding='latin=1')

In [99]:
df.head(5)

Unnamed: 0,v1,v2,Unnamed: 2,Unnamed: 3,Unnamed: 4
0,ham,"Go until jurong point, crazy.. Available only ...",,,
1,ham,Ok lar... Joking wif u oni...,,,
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...,,,
3,ham,U dun say so early hor... U c already then say...,,,
4,ham,"Nah I don't think he goes to usf, he lives aro...",,,


In [100]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5572 entries, 0 to 5571
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   v1          5572 non-null   object
 1   v2          5572 non-null   object
 2   Unnamed: 2  50 non-null     object
 3   Unnamed: 3  12 non-null     object
 4   Unnamed: 4  6 non-null      object
dtypes: object(5)
memory usage: 217.8+ KB


In [101]:
df.describe()

Unnamed: 0,v1,v2,Unnamed: 2,Unnamed: 3,Unnamed: 4
count,5572,5572,50,12,6
unique,2,5169,43,10,5
top,ham,"Sorry, I'll call later","bt not his girlfrnd... G o o d n i g h t . . .@""","MK17 92H. 450Ppw 16""","GNT:-)"""
freq,4825,30,3,2,2


In [102]:
df.dropna(axis=1, how='any', inplace=True)

In [103]:
df.columns = ['label', 'message']

In [104]:
df.head(5)

Unnamed: 0,label,message
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


In [105]:
df['label'].value_counts()

label
ham     4825
spam     747
Name: count, dtype: int64

In [106]:
df.duplicated().sum()

403

In [107]:
df[df.duplicated()].head(10)

Unnamed: 0,label,message
102,ham,As per your request 'Melle Melle (Oru Minnamin...
153,ham,As per your request 'Melle Melle (Oru Minnamin...
206,ham,"As I entered my cabin my PA said, '' Happy B'd..."
222,ham,"Sorry, I'll call later"
325,ham,No calls..messages..missed calls
338,ham,"Sorry, I'll call later"
356,spam,Congratulations ur awarded 500 of CD vouchers ...
443,ham,"Sorry, I'll call later"
532,ham,Gudnite....tc...practice going on
654,ham,Did u got that persons story


#### Pré-processamento de texto

In [137]:
df['clean_message'] = df['message'].apply(preprocess_text)
df[['message', 'clean_message']].head()

Unnamed: 0,message,clean_message
0,"Go until jurong point, crazy.. Available only ...",go jurong point crazy available bugis n great ...
1,Ok lar... Joking wif u oni...,ok lar joking wif u oni
2,Free entry in 2 a wkly comp to win FA Cup fina...,free entry 2 wkly comp win fa cup final tkts 2...
3,U dun say so early hor... U c already then say...,u dun say early hor u c already say
4,"Nah I don't think he goes to usf, he lives aro...",nah dont think goes usf lives around though


#### Vetorização

In [109]:
# Inicializando o vetor de contagem
vectorizer = CountVectorizer()

In [110]:
# Transformando o texto
X = vectorizer.fit_transform(df['clean_message'])

In [111]:
# Exibindo a forma da matriz resultante (documentos x características)
X.shape

(5572, 9376)

In [138]:
vocab = vectorizer.vocabulary_
#print(vocab)

#### Divisão em treino e teste

In [113]:
# Dividindo o dataset em treino (80%) e teste (20%)
X_train, X_test, y_train, y_test = train_test_split(X, df['label'], test_size=0.2, random_state=42)

In [114]:
# Verificando as formas dos conjuntos
print(X_train.shape, X_test.shape)

(4457, 9376) (1115, 9376)


#### Treinando o modelo

In [115]:
# Criando o modelo de Naive Bayes
model = MultinomialNB()

In [116]:
# Treinando o modelo
model.fit(X_train, y_train)

#### Avaliando o modelo

In [117]:
# Prevendo as classes no conjunto de teste
y_pred = model.predict(X_test)

In [118]:
# Calculando a acurácia
print("Acurácia:", accuracy_score(y_test, y_pred))

Acurácia: 0.9757847533632287


In [119]:
# Exibindo um relatório completo de métricas
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

         ham       0.99      0.99      0.99       965
        spam       0.91      0.91      0.91       150

    accuracy                           0.98      1115
   macro avg       0.95      0.95      0.95      1115
weighted avg       0.98      0.98      0.98      1115



## 📌 Conclusão

Este projeto teve como objetivo classificar mensagens de texto SMS como **spam** ou **não spam (ham)** utilizando técnicas de **Processamento de Linguagem Natural (NLP)** e **Machine Learning**.

Após realizar o pré-processamento textual, vetorização com **TF-IDF**, e treinamento com o modelo **Multinomial Naive Bayes**, o modelo obteve uma **acurácia de 97-98%** em dados de teste. Isso indica um bom desempenho na tarefa de filtragem automática de mensagens indesejadas.

🔍 Alguns insights:
- O modelo consegue capturar bem padrões típicos de spam, como palavras relacionadas a promoções, prêmios e urgência.
- O uso de **TF-IDF** ajuda a reduzir o peso de palavras muito comuns, melhorando a performance em relação ao simples Bag of Words.
- O desequilíbrio entre classes foi tratado naturalmente pelo modelo, mas pode ser melhorado com técnicas como oversampling em casos mais críticos.

Este pipeline serve como base para qualquer tarefa de classificação de texto, sendo possível reutilizá-lo em projetos como análise de sentimento, classificação de notícias ou detecção de fake news.
