<a href="https://colab.research.google.com/github/dFarrulla/emailspam-detect/blob/main/emailspam.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Projeto Colaborativo: **Detecção de Spam em E-mails** usando Machine Learning

A detecção de spam é uma tarefa crítica no campo da segurança da informação e do processamento de linguagem natural (NLP). Com o aumento constante do volume de e-mails, identificar e filtrar automaticamente e-mails de spam tornou-se essencial para garantir a segurança e a eficiência da comunicação por e-mail. Este projeto colaborativo visa desenvolver um sistema de detecção de spam utilizando técnicas de machine learning, proporcionando uma solução eficaz e escalável para a classificação de e-mails.

**Objetivo**
O objetivo principal deste projeto é construir um modelo de machine learning capaz de classificar e-mails como "spam" ou "não-spam" com alta precisão. O sistema deve ser capaz de analisar o conteúdo dos e-mails e identificar padrões comuns em mensagens de spam, diferenciando-os de e-mails legítimos.

**Metodologia**
1. Coleta de Dados
A primeira etapa do projeto envolve a coleta de um conjunto de dados rotulado, contendo exemplos de e-mails classificados como "spam" e "não-spam". Utilizaremos o conjunto de dados público Enron Email Dataset, que é amplamente utilizado para tarefas de detecção de spam.

2. **Pré-processamento de Dados**
O pré-processamento dos dados é crucial para preparar os e-mails para a análise. As etapas incluem:

Limpeza de Texto: Remoção de pontuações, números e caracteres especiais.
Tokenização: Divisão dos textos dos e-mails em palavras individuais.
Remoção de Stop Words: Eliminação de palavras comuns que não contribuem para a detecção de spam (ex.: "o", "a", "de").
Stemming e Lemmatização: Redução das palavras às suas raízes para normalizar o texto.

1- **Importação de Bibliotecas Essenciais:**
string: Utilizado para manipulação de strings e remoção de pontuações.
numpy: Biblioteca para operações matemáticas e manipulação de arrays.
pandas: Biblioteca para manipulação e análise de dados.

2- **Importação de Recursos do NLTK para Processamento de Linguagem Natural:**
nltk: Biblioteca para processamento de linguagem natural.
stopwords: Conjunto de palavras comuns que são geralmente removidas em tarefas de NLP.
PorterStemmer: Algoritmo de stemming para reduzir palavras às suas raízes.

3-** Importação de Ferramentas do scikit-learn para Machine Learning:**
CountVectorizer: Transforma textos em uma matriz de contagem de tokens.
train_test_split: Divide os dados em conjuntos de treinamento e teste.
RandomForestClassifier: Algoritmo de Random Forest para classificação.

In [None]:
# Importando os módulos
import string

import numpy as np
import pandas as pd

import matplotlib.pyplot as plt

import nltk
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier


In [None]:
# Baixa a lista de stopwords da NLTK (palavras comuns que geralmente são filtradas em análises de texto)
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
# Carregando o dataset
df = pd.read_csv('/content/drive/MyDrive/Spam-Dataset/spam_ham_dataset.csv')

In [None]:
# Verificando o formato dos dados
df.shape

(5171, 4)

In [None]:
df.describe

In [None]:
# Verificando as primeiras linhas do dataset
df.head(10)

Unnamed: 0.1,Unnamed: 0,label,text,label_num
0,605,ham,Subject: enron methanol ; meter # : 988291 thi...,0
1,2349,ham,"Subject: hpl nom for january 9 , 2001 ( see at...",0
2,3624,ham,"Subject: neon retreat ho ho ho , we ' re aroun...",0
3,4685,spam,"Subject: photoshop , windows , office . cheap ...",1
4,2030,ham,Subject: re : indian springs this deal is to b...,0
5,2949,ham,Subject: ehronline web address change this mes...,0
6,2793,ham,Subject: spring savings certificate - take 30 ...,0
7,4185,spam,Subject: looking for medication ? we ` re the ...,1
8,2641,ham,Subject: noms / actual flow for 2 / 26 we agre...,0
9,1870,ham,"Subject: nominations for oct . 21 - 23 , 2000 ...",0


In [None]:
# Verifincando se existem valores nulos
df.isnull().values.any()

False

In [None]:
# Identificando a correlação entre as variáveis
# Obs: correlação não implica causalidade
def plot_corr(df, size =10):
  corr = df.corr()
  fig, ax = plt.subplots(figsize = (size, size))
  ax.matshow(corr)
  plt.xticks(range(len(corr.columns)), corr.columns)
  plt.yticks(range(len(corr.columns)), corr.columns)

O código está limpando o texto na coluna text do DataFrame df, removendo quebras de linha (\r\n) e substituindo-as por espaços em branco. Isso resulta em um texto mais limpo e contínuo, o que é importante para a análise de texto e processamento de linguagem natural (NLP).

In [None]:
df['text'] = df['text'].apply(lambda x: x.replace('\r\n', ' '))

iloc é um método do pandas que permite acessar uma entrada em uma posição específica (índice) no DataFrame. É baseado em índices numéricos (inteiros).


In [None]:
df.text.iloc[0]

"Subject: enron methanol ; meter # : 988291 this is a follow up to the note i gave you on monday , 4 / 3 / 00 { preliminary flow data provided by daren } . please override pop ' s daily volume { presently zero } to reflect daily activity you can obtain from gas control . this change is needed asap for economics purposes ."


Ver se existem valores faltando



In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5171 entries, 0 to 5170
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Unnamed: 0  5171 non-null   int64 
 1   label       5171 non-null   object
 2   text        5171 non-null   object
 3   label_num   5171 non-null   int64 
dtypes: int64(2), object(2)
memory usage: 161.7+ KB


Remover toda a pontuação e transformar tudo em lowercase e depois fazer o processo de lematização:

A lematização é o processo de reduzir palavras às suas formas base ou raiz (lemmas). Este processo leva em conta o contexto e busca transformar palavras flexionadas de volta à sua forma básica, ao contrário do stemming, que simplesmente corta o final das palavras sem considerar o contexto. Em inglês, por exemplo, a palavra "running" é transformada em "run" através da lematização.

Para realizar a lematização em inglês, podemos usar a biblioteca nltk (Natural Language Toolkit).

In [None]:
stemmer = PorterStemmer()

In [None]:
stemmer.stem('running')

'run'

Este código pré-processa um DataFrame df contendo textos, removendo pontuações, convertendo para minúsculas, removendo stop words e aplicando stemming. O resultado é armazenado em uma lista corpus.

Inicializa uma lista vazia para armazenar os textos processados.

Cria um conjunto de stop words em inglês para rápida verificação.

Itera sobre cada linha do DataFrame df

Processamento do Texto


In [None]:
corpus = []

stopwords_set = set(stopwords.words('english'))

for i in range(len(df)):
  text = df['text'].iloc[i].lower() # Converte o texto para minúsculas
  text = text.translate(str.maketrans('', '', string.punctuation)).split() # Remove pontuação e divide o texto em palavras
  text = [stemmer.stem(word) for word in text if word not in stopwords_set]  # Remove stop words e aplica stemming
  text = ' '.join(text) # Junta as palavras de volta em uma string
  corpus.append(text) # Adiciona o texto processado ao corpus

Texto original

In [None]:
df.text.iloc[0]


"Subject: enron methanol ; meter # : 988291 this is a follow up to the note i gave you on monday , 4 / 3 / 00 { preliminary flow data provided by daren } . please override pop ' s daily volume { presently zero } to reflect daily activity you can obtain from gas control . this change is needed asap for economics purposes ."

Texto convertido

In [None]:
corpus[0]

'subject enron methanol meter 988291 follow note gave monday 4 3 00 preliminari flow data provid daren pleas overrid pop daili volum present zero reflect daili activ obtain ga control chang need asap econom purpos'

Vetorização

In [None]:
vectorizer = CountVectorizer()

X = vectorizer.fit_transform(corpus).toarray()
y = df.label_num

x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [None]:
X[0]

array([1, 0, 0, ..., 0, 0, 0])

In [None]:
df

Unnamed: 0.1,Unnamed: 0,label,text,label_num
0,605,ham,Subject: enron methanol ; meter # : 988291 thi...,0
1,2349,ham,"Subject: hpl nom for january 9 , 2001 ( see at...",0
2,3624,ham,"Subject: neon retreat ho ho ho , we ' re aroun...",0
3,4685,spam,"Subject: photoshop , windows , office . cheap ...",1
4,2030,ham,Subject: re : indian springs this deal is to b...,0
...,...,...,...,...
5166,1518,ham,Subject: put the 10 on the ft the transport vo...,0
5167,404,ham,Subject: 3 / 4 / 2000 and following noms hpl c...,0
5168,2933,ham,Subject: calpine daily gas nomination > > juli...,0
5169,1409,ham,Subject: industrial worksheets for august 2000...,0


In [None]:
clf= RandomForestClassifier(n_jobs=-1)

clf.fit(x_train, y_train)

In [None]:
clf.score(x_test, y_test)

0.9768115942028985

In [None]:
email_to_classify = df.text.values[10]

In [None]:
email_to_classify

"Subject: vocable % rnd - word asceticism vcsc - brand new stock for your attention vocalscape inc - the stock symbol is : vcsc vcsc will be our top stock pick for the month of april - stock expected to bounce to 12 cents level the stock hit its all time low and will bounce back stock is going to explode in next 5 days - watch it soar watch the stock go crazy this and next week . breaking news - vocalscape inc . announces agreement to resell mix network services current price : $ 0 . 025 we expect projected speculative price in next 5 days : $ 0 . 12 we expect projected speculative price in next 15 days : $ 0 . 15 vocalscape networks inc . is building a company that ' s revolutionizing the telecommunications industry with the most affordable phone systems , hardware , online software , and rates in canada and the us . vocalscape , a company with global reach , is receiving international attention for the development of voice over ip ( voip ) application solutions , including the award 

In [None]:
email_text = email_to_classify.lower().translate(str.maketrans('', '', string.punctuation)).split()
email_text = [stemmer.stem(word) for word in email_text if word not in stopwords_set]
email_text = ' '.join(email_text)

email_corpus = [email_text]

X_email = vectorizer.transform(email_corpus)

In [None]:
clf.predict(X_email)

array([1])

In [None]:
df.label_num.iloc[10]

1