# **Classificação de E-mails: Uma Abordagem com Ciência de Dados.**

Neste notebook, abordaremos como a ciência de dados pode ser aplicada para classificar e-mails como spam ou não spam. A classificação de e-mails é uma tarefa importante para melhorar a experiência do usuário ao filtrar mensagens indesejadas. Neste notebook será seguida uma abordagem passo a passo usando Python e bibliotecas populares de aprendizado de máquina e processamento de linguagem natural (PLN).

#**Abordagens para a Classificação**

Na classificação de e-mails em spam ou não spam, várias técnicas de aprendizado de máquina e ciência de dados podem ser utilizadas. Aqui estão algumas das abordagens comuns:

1. Naive Bayes: O classificador Naive Bayes é amplamente usado na classificação de texto, incluindo a classificação de e-mails. Ele funciona bem para tarefas de processamento de linguagem natural, como a classificação de palavras-chave e análise de texto.
2. Random Forest: Uma extensão das árvores de decisão, o Random Forest é um algoritmo de conjunto que combina várias árvores de decisão para melhorar o desempenho e a generalização.
3. Processamento de Linguagem Natural (NLP): Técnicas avançadas de NLP, como modelos de linguagem pré-treinados (por exemplo, BERT, GPT) ou análise de sentimentos, podem ser incorporadas para melhorar a detecção de spam.

#**Classificação Geral**

A ciência de dados desempenha um papel fundamental na classificação de e-mails em spam ou não spam. Aqui vamos ter uma implementação geral dessa aboordagem, nela será utilizado o conjunto de dados "spambase.data" que possui uma quantidade de 920 instâncias para a classificação com o modelo produzido:

1. **Coleta e Preparação de Dados:**
   - A ciência de dados começa com a coleta de dados relevantes. Para classificar e-mails, é necessário ter um conjunto de dados que contenha e-mails rotulados como spam e não spam. A ciência de dados ajuda a coletar, limpar e preparar esses dados, removendo duplicatas, tratando valores ausentes e realizando outras operações de limpeza. Na etapa inicial é realizada as importações e carregamento do modelo
   

In [2]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

data = pd.read_csv('spambase.data')

2. **Pré-processamento de Texto:**
   - Os e-mails geralmente contêm texto não estruturado. A ciência de dados aplica técnicas de pré-processamento de texto, como tokenização, remoção de stop words, normalização de texto (por exemplo, transformando todas as palavras em minúsculas) e vetorização de texto (por exemplo, usando modelos Bag of Words ou TF-IDF) para transformar o texto em formato adequado para análise.


3. **Modelagem e Aprendizado de Máquina:**
   - A ciência de dados aplica algoritmos de aprendizado de máquina, como Naive Bayes, Support Vector Machines (SVM), árvores de decisão ou redes neurais, para treinar modelos de classificação. Esses modelos são alimentados com os dados preparados e usados para aprender a distinguir entre spam e não spam com base nos recursos extraídos. Nesse caso, a opção de utilização foi "Random Forest".


In [3]:
X = data.iloc[:, :-1]
y = data.iloc[:, -1]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = RandomForestClassifier(random_state=42)

model.fit(X_train, y_train)

4. **Avaliação de Desempenho:**
   - Após o treinamento do modelo, a ciência de dados avalia seu desempenho usando métricas como precisão, recall, F1-score e acurácia. Isso ajuda a determinar quão bem o modelo está classificando os e-mails e se precisa ser ajustado.

5. **Ajuste de Parâmetros:**
   - A ciência de dados realiza ajustes nos parâmetros do modelo para otimizar seu desempenho. Isso envolve a experimentação com diferentes configurações do modelo para encontrar a combinação que produz os melhores resultados.


In [4]:
y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)

print("Resultados da classificação de e-mails como spam ou não spam:")
print("------------------------------------------------------------")
print(f"Acurácia do modelo: {accuracy:.2f}")
print("------------------------------------------------------------")
print("Relatório de classificação:")
print(report)

Resultados da classificação de e-mails como spam ou não spam:
------------------------------------------------------------
Acurácia do modelo: 0.93
------------------------------------------------------------
Relatório de classificação:
              precision    recall  f1-score   support

           0       0.92      0.97      0.94       530
           1       0.95      0.88      0.91       390

    accuracy                           0.93       920
   macro avg       0.93      0.92      0.93       920
weighted avg       0.93      0.93      0.93       920



No machine learning desenvolvido foi utilizado o algoritmo "Random Forest" para a classificação de e-mails como spam ou não spam. A classificação ocorreu da seguinte forma: 0 (não-spam) e 1 (spam).

1. Acurácia do Modelo: O modelo alcançou uma acurácia de 0,93, o que significa que classificou corretamente aproximadamente 93% dos e-mails como spam ou não spam.

2. Precision e Recall: A precisão (precision) e o recall são métricas importantes. A precisão para a classe "spam" é de 0,95, o que significa que quando o modelo classifica um e-mail como spam, ele está correto em 95% das vezes. O recall para a classe "spam" é de 0,88, indicando que o modelo identifica 88% de todos os e-mails de spam presentes no conjunto de dados.

3. F1-Score: O F1-score é uma métrica que leva em consideração tanto a precisão quanto o recall. O F1-score médio é de 0,93, o que indica um bom equilíbrio entre precisão e recall.
    
    



Em resumo, a ciência de dados fornece as ferramentas e técnicas necessárias para coletar, processar, modelar e implementar sistemas de classificação de e-mails em spam ou não spam, melhorando assim a experiência do usuário e a segurança das caixas de entrada de e-mail.