Imagine que você foi contratado por uma empresa de tecnologia para trabalhar em um projeto desafiador: melhorar o sistema de e-mail da empresa. Atualmente, muitos e-mails indesejados (spam) estão passando despercebidos pelo filtro atual, causando transtornos para os funcionários. Sua missão é desenvolver um sistema de classificação mais eficiente que consiga diferenciar com precisão os e-mails “spam” dos “não spam”.

Você possui acesso a um banco de dados de e-mails antigos, já rotulados como “spam” ou “não spam”, e seu chefe pediu para que você proponha uma solução usando aprendizado supervisionado. Com base no que você aprendeu sobre algoritmos de classificação, qual você escolheria para este desafio e por quê? Explique como o algoritmo funciona, por que ele seria eficaz para esse problema específico e qualquer outra consideração relevante que deva ser levada em conta ao implementar a solução. Para ajudá-lo a se guiar na sua resposta, veja alguns aspectos que você pode levar em consideração:

#### Contextualização: Explicar o cenário do problema, identificando a necessidade de uma solução de classificação eficiente.


#### Escolha do Algoritmo: Indicar claramente o algoritmo escolhido.


#### Justificativa Técnica: Explicar como o algoritmo funciona, detalhando sua aplicabilidade ao problema de classificação de e-mails.


#### Adequação ao Problema: Justificar por que o algoritmo é adequado, considerando aspectos como eficiência, facilidade de implementação e possíveis limitações.


#### Considerações Adicionais: Incluir qualquer consideração adicional relevante ao contexto do problema, como a natureza dos dados ou a complexidade computacional.

## Explicação da solução:

Algoritmo para classificar emails em spam e não spam.

Algoritmo: Regressão Logística, um algoritimo de aprendizado supervisionado  para classificação binaria, onde posso classificar spam = 1 e não spam = 0.

A regressão logistica permite classificação binaria, ondem os emails serão classificados em 0 ou 1, facilitando a resolução do problema.

In [3]:
import pandas as pd # importa o pandas para trabalhar com dataframes 
import numpy as np # importa o numpy para trabalhar com vetores e matrizes
import matplotlib.pyplot as plt # importa o matplotlib para plotar dados em forma de gráfico 
from sklearn.model_selection import train_test_split # importa a train_test_split para dividir o conjuto de treino e teste 
from sklearn.preprocessing import StandardScaler # para normalizar os dados se necessário 
from sklearn.linear_model import LogisticRegression # importa o algoritmo principal: regressão logística
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report 


In [12]:
# Gera um conjunto de dados para simular o problema 
np.random.seed(0)
num_samples = 1000

# Criando variáveis simuladas
comprimento_email = np.random.normal(300, 50, num_samples)  # Tamanho do e-mail em caracteres
links = np.random.randint(0, 10, num_samples)  # Quantidade de links no e-mail
palavras_sus = np.random.randint(0, 20, num_samples)  # Palavras suspeitas ("grátis", "promoção", etc.)

# Definindo a variável alvo (1 = spam, 0 = não spam)
spam = (links > 5) | (palavras_sus > 10)
spam = spam.astype(int)

# Cria um DataFrame
df = pd.DataFrame({
    'comprimento_email': comprimento_email,
    'qtd_links': links,
    'qtd_palavras_suspeitas': palavras_sus,
    'spam': spam
})

# Visualizando os primeiros dados
print(df)

# Separa as variaveis em independentes e dependentes:
X = df[['comprimento_email', 'qtd_links', 'qtd_palavras_suspeitas']] # variaveis independentes
y = df['spam'] # variavel dependente 

# Dividindo entre treino e teste (80% treino, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normalizando os dados para melhorar o modelo
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Cria treina o modelo
model = LogisticRegression()
model.fit(X_train, y_train)

# Faz  previsões
y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
print(f'Acurácia: {accuracy}') # mostra a acuracia do modelo, porcentagem de acertos 

# Matriz de Confusão
conf_matrix = confusion_matrix(y_test, y_pred)
print( conf_matrix) # Mostra a quantidade de erros e acertos do modelo 

# Relatório de Classificação
print( classification_report(y_test, y_pred))

     comprimento_email  qtd_links  qtd_palavras_suspeitas  spam
0           388.202617          0                       0     0
1           320.007860          6                       8     1
2           348.936899          3                      15     1
3           412.044660          6                       5     1
4           393.377900          9                       3     1
..                 ...        ...                     ...   ...
995         320.643541          5                      10     0
996         290.080055          5                      11     1
997         304.709615          3                       6     0
998         242.619453          7                       1     1
999         282.094296          6                      13     1

[1000 rows x 4 columns]
Acurácia: 0.905
[[ 62   9]
 [ 10 119]]
              precision    recall  f1-score   support

           0       0.86      0.87      0.87        71
           1       0.93      0.92      0.93       129

    