# 🤖 Classificação de Spam com Naïve Bayes

Este notebook demonstra o processo completo de construção e avaliação de um modelo de machine learning para classificar e-mails como SPAM ou NÃO SPAM. Utilizaremos o algoritmo **Naïve Bayes**, um método de aprendizado supervisionado, usando a base de dados criada por você.

O fluxo de trabalho será o seguinte:
1.  **Preparação de Dados:** Criar nossa base de dados com as características e rótulos.
2.  **Divisão de Dados:** Separar os dados em conjuntos de treinamento e teste.
3.  **Treinamento do Modelo:** Ensinar o modelo a identificar padrões nos dados.
4.  **Avaliação:** Verificar a performance do modelo usando métricas importantes como Acurácia e Matriz de Confusão.

### 1. Importar Bibliotecas Necessárias

Vamos começar importando as bibliotecas que nos darão as ferramentas para trabalhar com dados (`pandas`) e treinar o nosso modelo (`scikit-learn`).

In [1]:
### 1. Importar Bibliotecas Necessárias

# Importar bibliotecas necessárias
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

### 2. Criar a Base de Dados

Agora, vamos transformar a sua tabela desenhada em uma estrutura de dados que o Python pode usar: um **DataFrame** do `pandas`.

In [2]:
# Criar o DataFrame com os dados da sua tabela
data = {
    'id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'n_palavras_suspeitas': [8, 0, 4, 2, 10, 1, 6, 3, 9, 0],
    'tamanho_email': [500, 120, 300, 250, 800, 150, 400, 200, 600, 100],
    'tem_link': [1, 0, 1, 0, 1, 0, 1, 0, 1, 0],
    'rotulo': [1, 0, 1, 0, 1, 0, 1, 0, 1, 1]
}

df = pd.DataFrame(data)

# Exibir o DataFrame para verificar se está correto
print("Sua Base de Dados Original:")
print(df)

Sua Base de Dados Original:
   id  n_palavras_suspeitas  tamanho_email  tem_link  rotulo
0   1                     8            500         1       1
1   2                     0            120         0       0
2   3                     4            300         1       1
3   4                     2            250         0       0
4   5                    10            800         1       1
5   6                     1            150         0       0
6   7                     6            400         1       1
7   8                     3            200         0       0
8   9                     9            600         1       1
9  10                     0            100         0       1


### 3. Separar as Características (X) e o Rótulo (y)

Para o machine learning, precisamos separar os dados de entrada (as características, ou `X`) dos dados de saída (o rótulo que queremos prever, ou `y`).

In [3]:
# X são as características (todas as colunas, exceto 'id' e 'rotulo')
X = df[['n_palavras_suspeitas', 'tamanho_email', 'tem_link']]

# y é o rótulo (o que queremos prever)
y = df['rotulo']

print("\nCaracterísticas (X):")
print(X.head())
print("\nRótulos (y):")
print(y.head())


Características (X):
   n_palavras_suspeitas  tamanho_email  tem_link
0                     8            500         1
1                     0            120         0
2                     4            300         1
3                     2            250         0
4                    10            800         1

Rótulos (y):
0    1
1    0
2    1
3    0
4    1
Name: rotulo, dtype: int64


### 4. Dividir os Dados em Treinamento e Teste

Esta é uma etapa crucial! Para avaliar nosso modelo de forma justa, ele não pode ser testado com os mesmos dados que usou para aprender. Por isso, dividimos o nosso conjunto de dados em duas partes:
* **Treinamento:** Para o modelo aprender os padrões.
* **Teste:** Para o modelo ser avaliado em dados que ele nunca viu.

In [4]:
# Dividir os dados em conjuntos de treinamento e teste
# test_size=0.3 significa que 30% dos dados serão usados para teste
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.3, random_state=42)

print(f"\nTamanho do conjunto de Treinamento: {len(X_treino)}")
print(f"Tamanho do conjunto de Teste: {len(X_teste)}")

print("\nDados usados para treinamento:")
print(X_treino)
print("\nDados usados para teste (para avaliação):")
print(X_teste)


Tamanho do conjunto de Treinamento: 7
Tamanho do conjunto de Teste: 3

Dados usados para treinamento:
   n_palavras_suspeitas  tamanho_email  tem_link
0                     8            500         1
7                     3            200         0
2                     4            300         1
9                     0            100         0
4                    10            800         1
3                     2            250         0
6                     6            400         1

Dados usados para teste (para avaliação):
   n_palavras_suspeitas  tamanho_email  tem_link
8                     9            600         1
1                     0            120         0
5                     1            150         0


### 5. Treinar o Modelo Naïve Bayes

Vamos usar a classe `GaussianNB` da biblioteca `scikit-learn` para criar e treinar o nosso modelo de classificação. O método `.fit()` é responsável por realizar o aprendizado.

In [5]:
# Instanciar o modelo Naïve Bayes
modelo_bayes = GaussianNB()

# Treinar o modelo com os dados de treinamento
modelo_bayes.fit(X_treino, y_treino)

print("\nModelo Naïve Bayes treinado com sucesso!")


Modelo Naïve Bayes treinado com sucesso!


### 6. Fazer Previsões no Conjunto de Teste

Com o modelo treinado, podemos agora usar o método `.predict()` para que ele faça suas previsões nos dados de teste, que ele nunca viu.

In [6]:
# Fazer previsões nos dados de teste
previsoes = modelo_bayes.predict(X_teste)

print("\nRótulos Reais do Conjunto de Teste:")
print(y_teste)

print("\nPrevisões do Modelo:")
print(previsoes)


Rótulos Reais do Conjunto de Teste:
8    1
1    0
5    0
Name: rotulo, dtype: int64

Previsões do Modelo:
[1 1 0]


### 7. Avaliar a Performance do Modelo

Chegou a hora de verificar se o nosso modelo está funcionando bem! Usaremos algumas métricas de avaliação.

#### **7.1. Acurácia**
A acurácia é a métrica mais simples: a proporção de classificações corretas sobre o total de classificações.

#### **7.2. Matriz de Confusão**
A Matriz de Confusão é uma ferramenta poderosa para entender os tipos de erros que o modelo comete.

* **Verdadeiro Positivo (VP):** Previu SPAM, e era SPAM.
* **Verdadeiro Negativo (VN):** Previu NÃO SPAM, e era NÃO SPAM.
* **Falso Positivo (FP):** Previu SPAM, mas era NÃO SPAM (um e-mail importante foi para a caixa de spam).
* **Falso Negativo (FN):** Previu NÃO SPAM, mas era SPAM (um e-mail de spam chegou na caixa de entrada).

#### **7.3. Relatório de Classificação**
Este relatório fornece métricas mais detalhadas como Precisão e Recall para cada classe.
* **Precisão:** Das vezes que o modelo disse que era SPAM, quantas ele acertou?
* **Recall (Revocação):** De todos os e-mails que eram SPAM de verdade, quantos o modelo conseguiu identificar?

In [7]:
# 1. Acurácia
acuracia = accuracy_score(y_teste, previsoes)
print(f"\nAcurácia do modelo: {acuracia:.2f}")

# 2. Matriz de Confusão
matriz_confusao = confusion_matrix(y_teste, previsoes)
print("\nMatriz de Confusão:")
print(matriz_confusao)

# 3. Relatório de Classificação
print("\nRelatório de Classificação:")
print(classification_report(y_teste, previsoes, target_names=['Não Spam', 'Spam']))


Acurácia do modelo: 0.67

Matriz de Confusão:
[[1 1]
 [0 1]]

Relatório de Classificação:
              precision    recall  f1-score   support

    Não Spam       1.00      0.50      0.67         2
        Spam       0.50      1.00      0.67         1

    accuracy                           0.67         3
   macro avg       0.75      0.75      0.67         3
weighted avg       0.83      0.67      0.67         3

