# Detecção de Spam utilizando Aprendizado de Máquina

Alunos:
- CARLOS EDUARDO DOS SANTOS SILVA TERTULIANO
- JOÃO GUILHERME LOPES ALVES DA COSTA
- RAFAEL SILVA FREIRE

Professor: Daniel Sabino Amorim De Araujo

In [None]:
# Importar bibliotecas
import numpy as np
import pandas as pd
import nltk
import gdown

In [None]:
# importe do database
url = 'https://drive.google.com/file/d/1R5XkSXKpYB16KBSrvKg1w_-tL43FzVtq/view?usp=sharing'
output = 'email_messages.csv'
gdown.download(url=url, output=output, quiet=False, fuzzy=True)
np.random.seed(5)
email_messages = pd.read_csv('email_messages.csv', on_bad_lines='skip')
print(len(email_messages))

Downloading...
From: https://drive.google.com/uc?id=1R5XkSXKpYB16KBSrvKg1w_-tL43FzVtq
To: /content/email_messages.csv
100%|██████████| 140M/140M [00:04<00:00, 31.9MB/s]


83448


In [None]:
email_messages_list = dfs_divididos = np.array_split(email_messages, 6)
email_messages = email_messages_list[0]
email_messages.head()

Unnamed: 0,label,text
0,1,ounce feather bowl hummingbird opec moment ala...
1,1,wulvob get your medircations online qnb ikud v...
2,0,computer connection from cnn com wednesday es...
3,1,university degree obtain a prosperous future m...
4,0,thanks for all your answers guys i know i shou...


In [None]:
from nltk.stem.snowball import SnowballStemmer
import re

nltk.download('punkt')

stemmer = SnowballStemmer("english")

def tokenize_and_stem(text):

    # tokeniza por setença e depois por palavra
    tokens = [word for sent in nltk.sent_tokenize(text) for word in nltk.word_tokenize(sent)]

    # remove caracteres estranhos
    filtered_tokens = [token for token in tokens if re.search('[a-zA-Z]', token)]

    # stemmiza os tokens
    stems = [stemmer.stem(token) for token in filtered_tokens]

    return stems

# importa TfidfVectorizer para criar vetores TF-IDF
from sklearn.feature_extraction.text import TfidfVectorizer

# instancia um objeto TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(max_df=0.8, max_features=200000,
                                 min_df=0.2, stop_words='english',
                                 use_idf=True, tokenizer=tokenize_and_stem,
                                 ngram_range=(1,3))

tfidf_matrix = tfidf_vectorizer.fit_transform([x for x in email_messages["text"].values.astype('U')])

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [None]:
# Rede Neural
import tensorflow as tf
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MaxAbsScaler
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

X = tfidf_matrix.toarray()
y = email_messages['label']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Convertendo os dados para um formato compatível com TensorFlow
scaler = MaxAbsScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Criando um modelo de rede neural usando TensorFlow
model = tf.keras.Sequential([
    tf.keras.layers.Dense(64, activation='relu', input_shape=(X_train_scaled.shape[1],)),
    tf.keras.layers.Dense(32, activation='relu'),
    tf.keras.layers.Dense(1, activation='sigmoid')
])

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# Treinando o modelo
model.fit(X_train_scaled, y_train, epochs=10, batch_size=32, validation_data=(X_test_scaled, y_test))
y_pred = model.predict(X_test_scaled)
y_pred = (y_pred > 0.5).astype(int)

# Avaliando o modelo
loss, accuracy = model.evaluate(X_test_scaled, y_test)
print(f'Acurácia do modelo nos dados de teste: {accuracy:.2f}')

confusion = confusion_matrix(y_test, y_pred)
classification_report_str = classification_report(y_test, y_pred)

print('Matriz de Confusão:')
print(confusion)
print('Relatório de Classificação:')
print(classification_report_str)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Acurácia do modelo nos dados de teste: 0.81
Matriz de Confusão:
[[1041  294]
 [ 225 1222]]
Relatório de Classificação:
              precision    recall  f1-score   support

           0       0.82      0.78      0.80      1335
           1       0.81      0.84      0.82      1447

    accuracy                           0.81      2782
   macro avg       0.81      0.81      0.81      2782
weighted avg       0.81      0.81      0.81      2782



In [None]:
# Arvore de Decisão
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MaxAbsScaler
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

X = tfidf_matrix.toarray()
y = email_messages['label']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Convertendo os dados para um formato compatível com a árvore de decisão
scaler = MaxAbsScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Criando e treinando o modelo da árvore de decisão
tree_model = DecisionTreeClassifier()
tree_model.fit(X_train_scaled, y_train)

# Fazendo previsões nos dados de teste
y_pred = tree_model.predict(X_test_scaled)

# Calculando e imprimindo a acurácia do modelo nos dados de teste
accuracy = accuracy_score(y_test, y_pred)
print(f'Acurácia do modelo de árvore de decisão nos dados de teste: {accuracy:.2f}')

confusion = confusion_matrix(y_test, y_pred)
classification_report_str = classification_report(y_test, y_pred)

print('Matriz de Confusão:')
print(confusion)
print('Relatório de Classificação:')
print(classification_report_str)

Acurácia do modelo de árvore de decisão nos dados de teste: 0.82
Matriz de Confusão:
[[1025  310]
 [ 196 1251]]
Relatório de Classificação:
              precision    recall  f1-score   support

           0       0.84      0.77      0.80      1335
           1       0.80      0.86      0.83      1447

    accuracy                           0.82      2782
   macro avg       0.82      0.82      0.82      2782
weighted avg       0.82      0.82      0.82      2782



In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MaxAbsScaler
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

X = tfidf_matrix.toarray()
y = email_messages['label']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Convertendo os dados para um formato compatível com o k-NN
scaler = MaxAbsScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Criando e treinando o modelo k-NN
knn_model = KNeighborsClassifier(n_neighbors=3)
knn_model.fit(X_train_scaled, y_train)

# Fazendo previsões nos dados de teste
y_pred = knn_model.predict(X_test_scaled)

# Calculando e imprimindo a acurácia do modelo nos dados de teste
accuracy = accuracy_score(y_test, y_pred)
print(f'Acurácia do modelo k-NN nos dados de teste: {accuracy:.2f}')

confusion = confusion_matrix(y_test, y_pred)
classification_report_str = classification_report(y_test, y_pred)

print('Matriz de Confusão:')
print(confusion)
print('Relatório de Classificação:')
print(classification_report_str)

Acurácia do modelo k-NN nos dados de teste: 0.82
Matriz de Confusão:
[[1047  288]
 [ 217 1230]]
Relatório de Classificação:
              precision    recall  f1-score   support

           0       0.83      0.78      0.81      1335
           1       0.81      0.85      0.83      1447

    accuracy                           0.82      2782
   macro avg       0.82      0.82      0.82      2782
weighted avg       0.82      0.82      0.82      2782

