Este projeto tem como objetivo realizar análise de texto e classificação de mensagens como spam ou não spam utilizando técnicas de processamento de linguagem natural (PLN) e aprendizado de máquina.

In [1]:
import numpy as np
import pandas as pd
import nltk
from nltk.corpus import stopwords
import string

In [2]:
from google.colab import files
import pandas as pd

In [3]:
uploaded = files.upload()

Saving emails.csv to emails.csv


In [4]:
csv = list(uploaded.keys())[0]


In [5]:
csv = pd.read_csv("emails.csv")
csv.head()

Unnamed: 0,text,spam
0,Subject: naturally irresistible your corporate...,1
1,Subject: the stock trading gunslinger fanny i...,1
2,Subject: unbelievable new homes made easy im ...,1
3,Subject: 4 color printing special request add...,1
4,"Subject: do not have money , get software cds ...",1


In [7]:
csv.shape

(5728, 2)

In [8]:
csv.columns

Index(['text', 'spam'], dtype='object')

In [9]:
csv.drop_duplicates(inplace=True)
print(csv.shape)

(5695, 2)


In [13]:
print(csv.isnull().sum())

text    0
spam    0
dtype: int64


In [14]:
nltk.download("stopwords")

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

**Módulo 1: Pré-processamento de Texto**

In [16]:
def process(text):
    nopunc = [char for char in text if char not in string.punctuation]
    nopunc = ''.join(nopunc)

    clean = [word for word in nopunc.split() if word.lower() not in stopwords.words('english')]
    return clean

csv['text'].head().apply(process)

0    [Subject, naturally, irresistible, corporate, ...
1    [Subject, stock, trading, gunslinger, fanny, m...
2    [Subject, unbelievable, new, homes, made, easy...
3    [Subject, 4, color, printing, special, request...
4    [Subject, money, get, software, cds, software,...
Name: text, dtype: object

**Módulo 2: Vetorização do Texto**

In [17]:
from sklearn.feature_extraction.text import CountVectorizer
message = CountVectorizer(analyzer=process).fit_transform(csv['text'])

**Módulo 3: Divisão do Conjunto de Dados**

In [19]:

from sklearn.model_selection import train_test_split
xtrain, xtest, ytrain, ytest = train_test_split(message, csv['spam'], test_size=0.20, random_state=0)

print(message.shape)

(5695, 37229)


**Módulo 4: Treinamento do Classificador**

In [20]:
from sklearn.naive_bayes import MultinomialNB
classifier = MultinomialNB().fit(xtrain, ytrain)

In [21]:
print(classifier.predict(xtrain))
print(ytrain.values)

[0 0 0 ... 0 0 0]
[0 0 0 ... 0 0 0]


**Módulo 5: Avaliação do Modelo no Conjunto de Treinamento**

In [22]:
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
pred = classifier.predict(xtrain)
print(classification_report(ytrain, pred))
print()
print("Confusion Matrix: \n", confusion_matrix(ytrain, pred))
print("Accuracy: \n", accuracy_score(ytrain, pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00      3457
           1       0.99      1.00      0.99      1099

    accuracy                           1.00      4556
   macro avg       0.99      1.00      1.00      4556
weighted avg       1.00      1.00      1.00      4556


Confusion Matrix: 
 [[3445   12]
 [   1 1098]]
Accuracy: 
 0.9971466198419666


**Módulo 6: Avaliação do Modelo no Conjunto de Teste**

In [23]:

print(classifier.predict(xtest))

print(ytest.values)

[1 0 0 ... 0 0 0]
[1 0 0 ... 0 0 0]


In [24]:
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
pred = classifier.predict(xtest)
print(classification_report(ytest, pred))
print()
print("Confusion Matrix: \n", confusion_matrix(ytest, pred))
print("Accuracy: \n", accuracy_score(ytest, pred))

              precision    recall  f1-score   support

           0       1.00      0.99      0.99       870
           1       0.97      1.00      0.98       269

    accuracy                           0.99      1139
   macro avg       0.98      0.99      0.99      1139
weighted avg       0.99      0.99      0.99      1139


Confusion Matrix: 
 [[862   8]
 [  1 268]]
Accuracy: 
 0.9920983318700615


## **Insights:**

**Pré-processamento de Texto:**

* O pré-processamento de texto é uma etapa crucial para lidar com dados textuais.
A remoção de pontuações e stopwords pode melhorar a qualidade dos dados de entrada para o modelo de aprendizado de máquina.

**Vetorização de Texto:**

* A vetorização de texto usando o CountVectorizer é uma técnica eficaz para transformar texto em uma representação numérica que pode ser utilizada por modelos de aprendizado de máquina.

**Divisão do Conjunto de Dados:**

* A divisão adequada do conjunto de dados em conjuntos de treinamento e teste é essencial para avaliar o desempenho real do modelo. O uso do método train_test_split facilita essa tarefa.

**Treinamento e Avaliação do Modelo:**

* O modelo Naive Bayes Multinomial é utilizado para a classificação. Avaliações detalhadas, como relatório de classificação, matriz de confusão e acurácia, fornecem insights sobre o desempenho do modelo em diferentes métricas.

## **Aprendizados:**

**Importância do Pré-processamento:**

O pré-processamento adequado, incluindo a remoção de pontuações e stopwords, contribui para melhorar a qualidade dos dados textuais antes de alimentar o modelo.

**Necessidade de Vetorização:**

A vetorização de texto é uma etapa crucial para representar dados textuais de uma forma que modelos de aprendizado de máquina possam entender. Escolher a técnica certa pode impactar significativamente o desempenho do modelo.

**Avaliação do Modelo:**

A avaliação do modelo vai além da simples acurácia. Métricas como precision, recall, F1-score, e matriz de confusão fornecem uma visão mais completa do desempenho do modelo, especialmente em tarefas desbalanceadas como a classificação de spam.

**Exploração Contínua:**

A exploração de diferentes modelos, ajustes de hiperparâmetros e técnicas de validação cruzada é importante para otimizar o desempenho do modelo. Experimentar abordagens diferentes pode levar a melhorias significativas.

**Interpretação dos Resultados:**

A interpretação dos resultados, especialmente ao analisar a matriz de confusão, é essencial para entender as áreas onde o modelo pode estar cometendo erros e para ajustar estratégias conforme necessário.

**Iteração e Melhoria Contínua:**

O desenvolvimento de modelos de aprendizado de máquina é um processo iterativo. A melhoria contínua, seja na escolha do modelo, no pré-processamento de texto ou na exploração de novas técnicas, é fundamental para obter resultados cada vez melhores.