# Classificação: Separando em Categorias

## Classificação Binária - Logistica

É o tipo mais simples, onde há apenas duas categorias possíveis (Sim/Não, 1/0, Spam/Não Spam).

Imagine que temos um DataFrame com uma avaliação de treinamento de 10 e-mails quanto a <br>
"contém as palavras oferta e grátis"<br>
"Muitos erros de portugues"<br>
"É SPAM ou Não é SPAM"

In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score

# 1. Criando dados de exemplo: características de e-mails vs. se é spam
emails = pd.DataFrame({
    'contem_oferta': [1, 0, 0, 1, 0, 1, 0, 0, 1, 1], # 1 se tem "oferta", "grátis", etc.
    'erros_gramaticais': [1, 0, 1, 1, 0, 0, 0, 1, 0, 1], # 1 se tem muitos erros
    'eh_spam': [1, 0, 0, 1, 0, 1, 0, 0, 1, 1] # 1 = SPAM, 0 = NÃO SPAM (nosso target)
})

X_email = emails[['contem_oferta', 'erros_gramaticais']]
y_email = emails['eh_spam']

# 2. Criando e treinando um modelo de Regressão Logística
modelo_logistico = LogisticRegression()
modelo_logistico.fit(X_email, y_email)

# 3. Prevendo para um novo e-mail
novo_email = pd.DataFrame([[1, 1]], columns=['contem_oferta', 'erros_gramaticais']) # Um e-mail com "oferta" e com erros gramaticais
previsao = modelo_logistico.predict(novo_email)
print(f"Previsão do Modelo Logístico: {'É SPAM' if previsao[0] == 1 else 'Não é Spam'}")


Previsão do Modelo Logístico: É SPAM


In [4]:
# Avaliando a acurácia do modelo nos próprios dados de treino (apenas para exemplo)
from sklearn.metrics import accuracy_score

acuracia_logistico = accuracy_score(y_email, modelo_logistico.predict(X_email))
print(f"Acurácia da Regressão Logistica nos dados de treino: {acuracia_logistico * 100:.2f}%")

Acurácia da Regressão Logistica nos dados de treino: 100.00%
