# Atividade 4
## Crie um modelo de classificação para detectar mensagems Spam

* **Nome:** Matheus Freitas Martins
* **Matrícula:** ES111281


In [2]:
pip install -U ydata-profiling

import pandas as pd
import numpy as np
import nltk
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.utils import resample
from ydata_profiling import ProfileReport
import matplotlib.pyplot as plt
from wordcloud import WordCloud
from sklearn.model_selection import cross_val_score

SyntaxError: invalid syntax (2689869858.py, line 1)

# 1. Carregando os dados

In [None]:
data = pd.read_csv("spam-datasset.csv")

## 1.1 Entendendo os dados

### 1.1.1 Gerando relatório detalhado

In [None]:
profile = ProfileReport(data, title="Spam Data Profiling Report", explorative=True)
profile.to_widgets()

In [None]:
profile.to_file("spam_data_profiling_report.html")

### 1.1.2 Observando frequência de palavras

In [None]:
def visualize_word_frequencies(messages, title):
    text = ' '.join(messages)
    wordcloud = WordCloud(width=800, height=800, background_color='white', stopwords=None, max_words=100).generate(text)
    
    plt.figure(figsize=(3, 3), facecolor=None)
    plt.imshow(wordcloud)
    plt.axis("off")
    plt.tight_layout(pad=0)
    plt.title(title)
    plt.show()

spam_messages = data[data['Category'] == 'spam']['Message']
ham_messages = data[data['Category'] == 'ham']['Message']

visualize_word_frequencies(spam_messages, 'Frequência de Palavras em Mensagens de Spam')
visualize_word_frequencies(ham_messages, 'Frequência de Palavras em Mensagens Não Spam')


## 1.2 Fazendo o pré-processamento

In [None]:
data = data.copy()
# Removendo as linhas duplicadas do conjunto de dados.
data = data.drop_duplicates()
# Mapeando as categorias (ham e spam) para valores numéricos (0 e 1).
data['Category'] = data['Category'].replace({'ham': 0, 'spam': 1})

# 2. Criando atributos relevantes a partir do texto da mensagem

In [None]:
# Aplicando o stemming para reduzir as palavras ao seu radical.
stemmer = SnowballStemmer("english")
# Removendo palavras irrelevantes (stopwords).
stop_words = set(stopwords.words("english"))

# Função que tokeniza a mensagem, aplica o stemming e remove as stopwords e palavras não alfabéticas. 
# Retorna a mensagem pré-processada como uma string.
def preprocess(message):
    words = nltk.word_tokenize(message)
    words = [stemmer.stem(word.lower()) for word in words if word.lower() not in stop_words and word.isalpha()]
    return ' '.join(words)

data['Message'] = data['Message'].apply(preprocess)

# Balanceamento de dados
spam = data[data['Category'] == 1]
ham = data[data['Category'] == 0]


# Aplicando a técnica de reamostragem (upsampling) no conjunto de spam para igualar a quantidade de exemplos de cada classe.
spam_upsampled = resample(spam, replace=True, n_samples=len(ham), random_state=42)

# Concatena os subconjuntos de ham e spam_upsampled para criar um conjunto de dados balanceado.
data_balanced = pd.concat([ham, spam_upsampled])

# Embaralhando aleatoriamente as linhas do DataFrame balanced_data e reinicializando o índice das linhas para garantir que os exemplos de treinamento e teste sejam selecionados aleatoriamente e que a ordem dos exemplos não afete o desempenho do modelo.
data_balanced = data_balanced.sample(frac=1, random_state=42).reset_index(drop=True)

# 3. Dividindo os dados em conjuntos de treinamento e teste

In [None]:
# 70% dos dados para treinamento e 30% para teste.
X_train, X_test, y_train, y_test = train_test_split(data_balanced['Message'], data_balanced['Category'], test_size=0.3, random_state=42)

# 4. Treinando o modelo de classificação

In [None]:
# Criando um objeto Pipeline que combina três etapas para processamento e classificação de texto:

# Vetorização de contagem de palavras. Gera uma matriz esparsa onde cada linha representa uma mensagem e cada coluna representa um termo (ou token) único no conjunto de dados. 
# Transformação TF-IDF (Term Frequency-Inverse Document Frequency). Podenra a importância das palavras no conjunto de dados com base em suas frequências nas mensagens.
# Aplicação do classificador Multinomial Naive Bayes. Utiliza frequências das palavras e probabilidades de classes para categorizar as mensagens.

# O primeiro passo é converter o texto bruto em um vetor de contagens de termos.
# O segundo passo consiste em obter o vetor de contagens de termos, que irá ponderar a importância das palavras usando a métrica TF-IDF
# Por fim, depois de ter a matriz TF-IDF, pode-se aplicar o classificador Multinomial Naive Bayes para treinar e fazer previsões.

model = Pipeline([
    ('vect', CountVectorizer()),
    ('tfidf', TfidfTransformer()),
    ('clf', MultinomialNB()),
])

model.fit(X_train, y_train)

# 5. Avaliando o desempenho do modelo

In [None]:
predictions = model.predict(X_test)
print(classification_report(y_test, predictions))

cm = confusion_matrix(y_test, predictions)
plt.figure(figsize=(7, 5))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=['ham', 'spam'], yticklabels=['ham', 'spam'])
plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.title('Matriz de Confusão')
plt.show()

## Discussão dos resultados 

Usando upsampling:

* F1-score (classe 0): 0.97
* F1-score (classe 1): 0.97

Usando downsampling:

* F1-score (classe 0): 0.91
* F1-score (classe 1): 0.92

Neste caso, o modelo utilizando upsampling apresenta um F1-score mais alto para ambas as classes (0.97). Portanto, com base nos resultados fornecidos, o modelo utilizando upsampling é a melhor opção para equilibrar a detecção correta de ambas as classes, pois um F1-score mais alto indica um melhor equilíbrio entre precisão e recall.

## Acurácia

In [None]:
print("Acurácia: ", accuracy_score(y_test, predictions))

# Analisando se ocorreu overfiting 

## cross-validation

In [None]:
# Calcule a acurácia usando validação cruzada com 5 folds
# folds =  divide os dados de treinamento em k-folds (subconjuntos) e treina o modelo em cada um desses subconjuntos, enquanto usa o restante dos dados como conjunto de validação.
# Divide o conjunto de treinamento em vários subconjuntos, treina e avalia o modelo várias vezes, usando um subconjunto diferente como conjunto de validação a cada vez.
scores = cross_val_score(model, X_train, y_train, cv=15, scoring='accuracy')

# Imprima os resultados
print(f"Acurácia média: {scores.mean():.2f}")
print(f"Desvio padrão: {scores.std():.2f}")

De acordo com os resultados acima, é possível notar que o bom desempenho do modelo, pois conseguiu obter a acurácia média alta. Além disso, o desvio padrão baixo indica que os resultados são consistentes e que o modelo está generalizando bem para novos dados. 

## Desempenho no conjunto de treinamento e validação

In [None]:
# Faça previsões para os conjuntos de treinamento e teste
y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

# Calcule a acurácia para os conjuntos de treinamento e teste
train_accuracy = accuracy_score(y_train, y_train_pred)
test_accuracy = accuracy_score(y_test, y_test_pred)

print(f"Acurácia no conjunto de treinamento: {train_accuracy:.2f}")
print(f"Acurácia no conjunto de teste: {test_accuracy:.2f}")

Observando os resultados acima, nota-se que a diferença na acurácia do conjunto de treinamento para a acurácia do conjunto de teste é muito pequena, portanto indica que o modelo está generalizando bem para os dados não vistos.

# Teste

In [None]:
# Crie uma nova mensagem para teste
mensagens_de_teste = [
    "Congratulations, you won the prize.",
    "You have a meeting scheduled at 2 pm tomorrow.",
    "Email urgent", 
    "Can you confirm by tomorrow?",
]

# Faça a previsão usando o pipeline
previsao_de_categorias = model.predict(mensagens_de_teste)

# Verifique as categorias previstas
for i, previsao in enumerate(previsao_de_categorias):
    if previsao == 1:
        print(f"Mensagem {i + 1}: Esta mensagem é spam.")
    else:
        print(f"Mensagem {i + 1}: Esta mensagem é ham.")