
# üì± Estudo de Caso ‚Äì Detec√ß√£o de SPAM em SMS (Classifica√ß√£o de Texto)
**Professor Rodrigo ‚Äì UniFECAF** ‚Ä¢ **Dura√ß√£o:** ~2h ‚Ä¢ **Trabalho:** dupla/trio

## üéØ Objetivo
Construir um pipeline de **Machine Learning para NLP cl√°ssico** que classifica mensagens SMS como **SPAM** ou **HAM (leg√≠tima)**.

- Revisar o **pipeline** de ML (Aulas 01‚Äì02).
- Praticar **pr√©-processamento** de texto e **vetoriza√ß√£o** (TF-IDF).
- Treinar e avaliar modelos (Naive Bayes, Regress√£o Log√≠stica).
- M√©tricas: **Accuracy, Precision, Recall, F1, ROC-AUC** e **RMSE educacional** (probabilidade vs r√≥tulo).



## üìÇ Dataset (download e upload manual)
Usaremos o **SMS Spam Collection** (UCI Repository).

üîó Baixe pelo site oficial da UCI:  
https://archive.ics.uci.edu/dataset/228/sms+spam+collection

> O arquivo costuma se chamar **`SMSSpamCollection`** (texto separado por **TAB**, duas colunas: `label` e `text`).  
> Depois de baixar, **fa√ßa o upload** do arquivo na c√©lula abaixo.


In [None]:

# üì• Upload do arquivo da UCI (ex.: SMSSpamCollection)
from google.colab import files
import io, pandas as pd

print("Selecione o arquivo 'SMSSpamCollection' baixado da UCI")
uploaded = files.upload()

filename = next(iter(uploaded))

# Tenta ler com header inexistente (duas colunas: label, text)
try:
    df = pd.read_csv(io.BytesIO(uploaded[filename]), sep='\t', header=None, names=['label','text'], encoding='utf-8')
except Exception as e:
    print("Falha no parse padr√£o (tab). Tentando outras varia√ß√µes...", e)
    df = pd.read_csv(io.BytesIO(uploaded[filename]), sep='\t', encoding_errors='ignore', header=None, names=['label','text'])

print("Amostra:")
df.head()



## 1Ô∏è‚É£ Revis√£o r√°pida ‚Äì Pipeline de ML
1. Coleta de dados ‚Üí 2. EDA ‚Üí 3. Pr√©-processamento ‚Üí 4. Treinamento ‚Üí 5. Avalia√ß√£o ‚Üí 6. Recomenda√ß√£o

**Pergunta (responda em texto):** Em qual etapa voc√™ imagina que gastaremos mais tempo hoje e por qu√™?


*Escreva sua resposta aqui*


## 2Ô∏è‚É£ EDA ‚Äì Explora√ß√£o de Dados
Vamos entender a base: quantidade, balanceamento, tamanho dos textos.


In [None]:

# Informa√ß√µes gerais
df.info()


In [None]:

# Distribui√ß√£o de classes
prop = df['label'].value_counts(normalize=True)
prop


In [None]:

# Tamanho dos textos (n√∫mero de caracteres) - vis√£o r√°pida
import matplotlib.pyplot as plt

df['len'] = df['text'].astype(str).str.len()
print(df['len'].describe())
plt.figure()
df['len'].hist(bins=30)
plt.title("Distribui√ß√£o do tamanho das mensagens (caracteres)")
plt.xlabel("n¬∫ de caracteres"); plt.ylabel("freq.")
plt.show()



**Perguntas r√°pidas:**
1. A base √© balanceada? O que isso significa para **accuracy**?  
2. Mensagens de spam tendem a ser maiores ou menores?


*Responda aqui*


## 3Ô∏è‚É£ Pr√©-processamento de Texto
- Limpeza simples (lowercase).  
- **TF-IDF** para transformar texto em vetores num√©ricos.  
- **Split** treino/teste com estratifica√ß√£o.


In [None]:

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer

# Label -> bin√°ria (spam=1, ham=0)
df['label_bin'] = (df['label'].str.lower().str.strip() == 'spam').astype(int)

X_text = df['text'].astype(str)
y = df['label_bin']

X_train_text, X_test_text, y_train, y_test = train_test_split(
    X_text, y, test_size=0.30, random_state=42, stratify=y
)

# Vetoriza√ß√£o TF-IDF (limpeza b√°sica embutida: lowercase=True)
tfidf = TfidfVectorizer(lowercase=True, stop_words=None)  # pode testar stop_words='english'
X_train = tfidf.fit_transform(X_train_text)
X_test  = tfidf.transform(X_test_text)

X_train.shape, X_test.shape, y_train.mean(), y_test.mean()



## 4Ô∏è‚É£ Modelos e M√©tricas
Vamos comparar **Naive Bayes (MultinomialNB)** e **Regress√£o Log√≠stica**.

**M√©tricas:**  
- **Accuracy**: % de acertos.  
- **Precision**: dos que o modelo chamou de *spam*, quantos eram *spam*.  
- **Recall**: dos *spam* reais, quantos o modelo pegou.  
- **F1**: equil√≠brio entre precision e recall.  
- **ROC-AUC**: qu√£o bem o modelo separa classes variando o limiar.  
- **RMSE (educacional)**: erro m√©dio das **probabilidades** previstas vs r√≥tulos (0/1).


In [None]:

from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import (
    accuracy_score, precision_score, recall_score, f1_score,
    confusion_matrix, ConfusionMatrixDisplay, classification_report,
    roc_auc_score, RocCurveDisplay
)
import numpy as np
import matplotlib.pyplot as plt

models = {
    "MultinomialNB": MultinomialNB(),
    "LogReg": LogisticRegression(max_iter=200, n_jobs=-1, random_state=42)
}

for name, model in models.items():
    print(f"\n=== {name} ===")
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    print(classification_report(y_test, y_pred, digits=4))
    cm = confusion_matrix(y_test, y_pred)
    ConfusionMatrixDisplay(cm).plot()
    plt.title(f"{name} - Matriz de Confus√£o (Teste)")
    plt.show()

    # Probabilidades para AUC e RMSE (se dispon√≠vel)
    if hasattr(model, "predict_proba"):
        y_score = model.predict_proba(X_test)[:,1]
    else:
        # fallback para modelos sem predict_proba (n√£o √© o caso aqui)
        y_score = None

    if y_score is not None:
        auc = roc_auc_score(y_test, y_score)
        print(f"ROC-AUC: {auc:.4f}")
        RocCurveDisplay.from_predictions(y_test, y_score)
        plt.title(f"{name} - Curva ROC (Teste)")
        plt.show()

        # RMSE educacional (probabilidade vs r√≥tulo)
        rmse = np.sqrt(np.mean((y_score - y_test.values)**2))
        print(f"RMSE (probabilidade vs r√≥tulo): {rmse:.4f}")



### üí¨ Perguntas finais (responda em texto)
1. Qual modelo apresentou melhor equil√≠brio entre **precision** e **recall**?  
2. Para um filtro de spam corporativo, voc√™ priorizaria **precision** ou **recall**? Explique.


*Escreva aqui suas respostas*


## üìù Reflex√£o do Grupo (obrigat√≥ria)
**Dificuldades encontradas:**  
- ...

**O que aprendemos:**  
- ...

**Como aplicar na TI (seguran√ßa, e-mail corporativo, antiphishing):**  
- ...
