# 🌲 Classificação de Spam com Random Forest

Este é o último experimento do nosso projeto! Vamos testar o **Random Forest**, um dos algoritmos mais robustos e populares, para ver se ele consegue superar o desempenho dos modelos anteriores.

Ele funciona como um "conjunto" de árvores de decisão, combinando seus resultados para obter uma previsão mais precisa e confiável.

In [1]:
### 1. Importar e Preparar os Dados

# Importar bibliotecas necessárias
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [2]:
# Criar o DataFrame com os dados da sua tabela
data = {
    'id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'n_palavras_suspeitas': [8, 0, 4, 2, 10, 1, 6, 3, 9, 0],
    'tamanho_email': [500, 120, 300, 250, 800, 150, 400, 200, 600, 100],
    'tem_link': [1, 0, 1, 0, 1, 0, 1, 0, 1, 0],
    'rotulo': [1, 0, 1, 0, 1, 0, 1, 0, 1, 1]
}
df = pd.DataFrame(data)

# Separar características (X) e rótulo (y)
X = df[['n_palavras_suspeitas', 'tamanho_email', 'tem_link']]
y = df['rotulo']

# Dividir os dados em conjuntos de treinamento e teste
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.3, random_state=42)

print("Etapas de preparação concluídas.")

Etapas de preparação concluídas.


### 2. Treinar o Modelo Random Forest

Vamos instanciar e treinar o modelo. O parâmetro `n_estimators` define o número de árvores na floresta. Usaremos um número pequeno por causa do nosso conjunto de dados.

In [3]:
# Instanciar o modelo Random Forest
# n_estimators define o número de árvores a serem construídas
modelo_rf = RandomForestClassifier(n_estimators=10, random_state=42)

# Treinar o modelo
modelo_rf.fit(X_treino, y_treino)

print("Modelo Random Forest treinado com sucesso!")

Modelo Random Forest treinado com sucesso!


### 3. Fazer Previsões e Avaliar o Desempenho

Vamos testar o modelo nos dados de teste e verificar as métricas de desempenho.

In [4]:
# Fazer previsões nos dados de teste
previsoes_rf = modelo_rf.predict(X_teste)

# Avaliar as previsões
acuracia_rf = accuracy_score(y_teste, previsoes_rf)
matriz_rf = confusion_matrix(y_teste, previsoes_rf)
relatorio_rf = classification_report(y_teste, previsoes_rf, target_names=['Não Spam', 'Spam'])

print(f"\nAcurácia do modelo Random Forest: {acuracia_rf:.2f}")
print("\nMatriz de Confusão (Random Forest):")
print(matriz_rf)
print("\nRelatório de Classificação (Random Forest):")
print(relatorio_rf)


Acurácia do modelo Random Forest: 0.33

Matriz de Confusão (Random Forest):
[[0 2]
 [0 1]]

Relatório de Classificação (Random Forest):
              precision    recall  f1-score   support

    Não Spam       0.00      0.00      0.00         2
        Spam       0.33      1.00      0.50         1

    accuracy                           0.33         3
   macro avg       0.17      0.50      0.25         3
weighted avg       0.11      0.33      0.17         3



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
