# Projeto
- É um projeto clássico para detecção de email span, classico. Utilizando o algoritmo Logistic Regression

## Objetivo
- Ele faz um classificador binário do que é span e não span. Tudo isso baseado nos dados de treino que ele aprendeu. No final exporta um relátório separando o que é epan e não span.

### Importação das Bibliotecas

In [1]:
import pandas as pd 
import numpy as np 
from sklearn.model_selection import train_test_split 
from sklearn.feature_extraction.text import TfidfVectorizer 
from sklearn.linear_model import LogisticRegression 
from sklearn.metrics import accuracy_score

  from pandas.core import (


In [2]:
# original data
data = pd.read_csv('mail_data.csv')

__

#### Vendo as primeiras linhas do dataset

In [3]:
data.head(3)

Unnamed: 0,Category,Message
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...


#### Vendo informações do dataset

In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5572 entries, 0 to 5571
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Category  5572 non-null   object
 1   Message   5572 non-null   object
dtypes: object(2)
memory usage: 87.2+ KB


#### Substituindo valores categóricos (textos)  por números (codificação de variáveis categóricas ou label encoding - manual

In [5]:
data.loc[data['Category'] == 'spam', 'Category'] = 0 
data.loc[data['Category'] == 'ham', 'Category'] = 1 

#### Separando as features e o target/rótulo numérico

In [6]:
# textos das mensagens (features)
X = data['Message'] 


# 0 ou 1, que indicam spam ou ham (Target)
Y = data['Category']

#### dividindo os dados em conjuntos de treino e teste

In [7]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=3)

- X_train	Dados de entrada (features) para TREINAR o modelo (80% dos dados, aqui) coluna de  texto
- X_test	Dados de entrada para TESTAR o modelo (20% dos dados, aqui)
- Y_train	Rótulos (labels/targets) correspondentes ao X_train 80% coluna rótulada 0 ou 1
- Y_test	Rótulos correspondentes ao X_test 20%

Explicando cada Parâmetros usado
- X, Y → seus dados originais (features e labels)
- test_size=0.2 → 20% dos dados vão para o teste, 80% para treino.
- random_state=3 → semente para o gerador de números aleatórios, garantindo que a divisão seja reproduzível (sempre igual, se você rodar de novo).

 Por que isso é importante?
- Treinar o modelo com X_train e Y_train.
- Testar o modelo com X_test e Y_test para verificar se ele generaliza bem para dados novos.
- Evita que o modelo “decore” os dados (overfitting).

#### Vendo quantas amostras das features irão para o teste e treino

In [8]:
print(X.shape)
print(X_train.shape)
print(X_test.shape)

(5572,)
(4457,)
(1115,)


- X é quantas amostras (linhas) e colunas existem no total antes da divisão, são suas features
- X_train Mostra quantas amostras foram para o conjunto de treino
- X_test.shape Mostra quantas amostras foram para o conjunto de teste

#### Vendo quantas  amostras das labels irão para o teste e treino

In [9]:
print(Y.shape)
print(Y_train.shape)
print(Y_test.shape)

(5572,)
(4457,)
(1115,)


- Y é quantas amostras (linhas) e colunas existem no total antes da divisão, são suas labels
- Y_train Mostra quantas amostras foram para o conjunto de treino
- Y_test.shape Mostra quantas amostras foram para o conjunto de teste

#### Vectorização de texto nas features

In [38]:
feature_extraction = TfidfVectorizer(min_df = 1, stop_words = 'english', lowercase=True)

In [39]:
X_train_features = feature_extraction.fit_transform(X_train)


# Transforma os dados de teste (SEM usar fit novamente!)
X_test_features = feature_extraction.transform(X_test)

Por que fazer isso?
- Modelos de Machine Learning não conseguem entender texto cru (ex: 'Oi, tudo bem?'). Eles precisam de números.
Por isso, transformamos os textos em vetores numéricos que representam as palavras.

Explicação dos parâmetros:
- min_df=1	Inclui palavras que aparecem em pelo menos 1 documento (ou seja, todas).
- stop_words='english'	Remove palavras comuns em inglês, como "the", "is", "and", etc. (chamadas stop words)
- lowercase=True	Converte todas as palavras para minúsculas antes da vetorização

#### Mudando o para o formato INT as labels

In [26]:
Y_train = Y_train.astype('int')
Y_test = Y_test.astype('int')

Por que fazer isso?
- Alguns modelos exigem rótulos numéricos
Modelos como LogisticRegression, RandomForest, SVC e outros do scikit-learn esperam que os rótulos (Y) sejam números inteiros (0, 1, 2, etc.)

- Se Y estiver como string ('spam', 'ham', ou até '0' como texto), pode gerar erro ou funcionar incorretamente.

#### vendo como ficou a vetorização nas labels

In [27]:
print(X_train_features)

  (0, 5413)	0.6198254967574347
  (0, 4456)	0.4168658090846482
  (0, 2224)	0.413103377943378
  (0, 3811)	0.34780165336891333
  (0, 2329)	0.38783870336935383
  (1, 4080)	0.18880584110891163
  (1, 3185)	0.29694482957694585
  (1, 3325)	0.31610586766078863
  (1, 2957)	0.3398297002864083
  (1, 2746)	0.3398297002864083
  (1, 918)	0.22871581159877646
  (1, 1839)	0.2784903590561455
  (1, 2758)	0.3226407885943799
  (1, 2956)	0.33036995955537024
  (1, 1991)	0.33036995955537024
  (1, 3046)	0.2503712792613518
  (1, 3811)	0.17419952275504033
  (2, 407)	0.509272536051008
  (2, 3156)	0.4107239318312698
  (2, 2404)	0.45287711070606745
  (2, 6601)	0.6056811524587518
  (3, 2870)	0.5864269879324768
  (3, 7414)	0.8100020912469564
  (4, 50)	0.23633754072626942
  (4, 5497)	0.15743785051118356
  :	:
  (4454, 4602)	0.2669765732445391
  (4454, 3142)	0.32014451677763156
  (4455, 2247)	0.37052851863170466
  (4455, 2469)	0.35441545511837946
  (4455, 5646)	0.33545678464631296
  (4455, 6810)	0.29731757715898277
  (4

Explicação
- 0	Documento/mensagem de índice 0 em X_train
- 5413	Palavra de índice 5413 no vocabulário TF-IDF
- 0.6198	é o Peso TF-IDF dessa palavra nesse documento

#### Intanciando o Modelo

In [28]:
model = LogisticRegression()

Explicação
- instanciando (criando) um modelo de Regressão Logística, que na verdade é um classificador, e não um modelo de regressão comum.

#### Treinamento do modelo.

In [29]:
model.fit(X_train_features, Y_train)

#### Previsões

#### Previsões nos próprios 80% de dados de treino (features)

In [40]:
prediction_on_training_data = model.predict(X_train_features)

Explicando:
- model.predict(...)	Usa o modelo treinado para prever os rótulos
- X_train_features	São os dados de entrada (mensagens vetorizadas) que foram usados no treino
- prediction_on_training_data	Resultado: o modelo prevê se cada mensagem é spam (0) ou ham (1)

Por que prever nos dados de treino?
- Serve para ver se o modelo aprendeu bem os dados que ele estudou.
- Se a acurácia nos dados de treino for muito alta (ex: 100%), mas baixa nos testes, pode indicar overfitting (o modelo decorou os dados).

#### Avaliando o Modelo com os 80% de dados X_train (previsão) comparando com os 80% de dados Y_train (labels)  

In [43]:
accuracy_on_training_data = accuracy_score(Y_train, prediction_on_training_data)

Explicação:
- Sim! ✅ Exatamente isso — ele compara os valores reais com os valores previstos para calcular quantas vezes o modelo acertou.

- Pega Y_train → que são os rótulos reais (spam ou ham) que você deu para o modelo durante o treino.

- Pega prediction_on_training_data → que são os rótulos que o modelo previu com base no que ele aprendeu.

- Compara cada valor de Y_train com o correspondente em prediction_on_training_data.

- Conta quantos ele acertou, divide pelo total → isso dá a acurácia.

In [44]:
print(f'Porcentagem de acertos: {accuracy_on_training_data}')

Porcentagem de acertos: 0.9670181736594121


#### Previsões com dados novos de teste os 20%

In [47]:
prediction_on_test_data = model.predict(X_test_features)

#### Avaliando o Modelo com os 20% de dados de test e comparando com os 80% de dados X_train (labels)  

In [48]:
accuracy_on_test_data = accuracy_score(Y_test, prediction_on_test_data)

In [49]:
print(f'Porcentagem de acertos: {accuracy_on_test_data}')

Porcentagem de acertos: 0.9659192825112107


#### prevendo se um novo e-mail é spam ou não.

In [81]:
# novo email
input_your_mail= ['This is the 2nd time we have  tried to contact u. U have won ÂE400 prize. 2 claim is easy, just call 08710']

In [82]:
# vetorização sem o fit
input_data_features = feature_extraction.transform(input_your_mail)

In [83]:
# previsão do novo email
prediction = model.predict(input_data_features)

In [84]:
# saída
prediction 

array([0])

In [85]:
if(prediction[0]==1):
    print('Ham mail')
else:
    print('Spam mail')

Spam mail


 📌 prediction[0]
- Acessa o primeiro (e único) valor dessa lista.
Ou seja, se o modelo previu [1], então prediction[0] é 1.

#### Vendo varios emails em resultado de lista

In [87]:
# Transforma todos os 10 e-mails em features com o vectorizer já treinado
features_novos_emails = feature_extraction.transform(emails_novos)

In [88]:
# Faz a previsão de todos de uma vez
predicoes = model.predict(features_novos_emails)

In [89]:
# Mostra os resultados um por um
for i, email in enumerate(emails_novos):
    status = "SPAM" if predicoes[i] == 1 else "HAM"
    print(f"E-mail {i+1}: {status} → {email}")

E-mail 1: SPAM → Congratulations! You've won a free iPhone!
E-mail 2: SPAM → Please confirm your attendance for the meeting tomorrow.
E-mail 3: HAM → You are selected for a prize. Click to claim now!
E-mail 4: SPAM → Don't forget to submit the report by 5 PM.
E-mail 5: SPAM → Get rich quick!!! Invest now and double your money.
E-mail 6: SPAM → Reminder: Your doctor appointment is tomorrow at 10 AM.
E-mail 7: SPAM → URGENT! Your account is compromised. Click here to secure.
E-mail 8: SPAM → Thanks for your help with the project.
E-mail 9: SPAM → Win a brand new car just by entering this contest!
E-mail 10: SPAM → Let's schedule lunch for next week.


#### Recebendo demando do Chefe

In [None]:
# Lê a tabela (troque o nome e caminho se for Excel)
df = pd.read_csv("emails_recebidos.csv")  # ou pd.read_excel("arquivo.xlsx")

# Extrai a coluna de e-mails como uma lista
lista_de_emails = df['Email'].tolist()

# Fianl do Projeto

#### Entregando Resultado para o Chefe?


Você pode:

- Imprimir isso em tela (como acima)

- Salvar em um CSV com pandas

- Colar em um e-mail ou planilha

#### Função

In [96]:
def classificar_emails(lista_de_emails):
    # Transforma os e-mails em vetores numéricos
    features = feature_extraction.transform(lista_de_emails)

    # Faz a previsão com o modelo treinado
    predicoes = model.predict(features)

    # Cria uma lista com os resultados como texto
    resultados_texto = ['SPAM' if p == 1 else 'HAM' for p in predicoes]

    # Exibe os resultados
    for i, email in enumerate(lista_de_emails):
        print(f"E-mail {i+1}: {resultados_texto[i]} → {email}")

    # Salva os resultados em um arquivo CSV
    df_resultado = pd.DataFrame({
        'Email': lista_de_emails,
        'Classificação': resultados_texto
    })
    df_resultado.to_excel("resultado_emails.xlsx", index=False)

In [97]:
predicoes

array([1, 1, 0, 1, 1, 1, 1, 1, 1, 1])