In [3]:
# Importando as bibliotecas necessárias
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, recall_score, f1_score, classification_report
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier

In [4]:
# Carregando o dataset
data_set = pd.read_csv('https://raw.githubusercontent.com/celsocrivelaro/simple-datasets/main/user_data.csv')

# Selecionando features e rótulo
X = data_set.iloc[:, [2, 3]].values  # Features: Age and EstimatedSalary
y = data_set.iloc[:, 4].values        # Target: Purchased

# Dividindo os dados em conjunto de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)

In [5]:
# Normalizando os dados
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [6]:
# treinar e avaliar um modelo
def evaluate_model(model, X_train, X_test, y_train, y_test):
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    recall = recall_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)
    print(classification_report(y_test, y_pred, target_names=["Não comprador", "Comprador"]))
    return accuracy, recall, f1

# Escolhendo Classificadores

SVM é uma boa escolha para dados simples, pois busca a melhor linha para separar as classes e lida bem com alguns valores fora do padrão.
KNN classifica com base nos dados mais próximos, sendo eficaz em conjuntos pequenos onde os dados formam grupos, como é o caso com idade e salário.

Esses modelos são ideais aqui pela simplicidade e eficiência em problemas de classificação com poucas variáveis.

In [7]:
# Testando modelo SVM
print("SVM Results:")
svm_model = SVC(kernel='linear', random_state=0)
svm_accuracy, svm_recall, svm_f1 = evaluate_model(svm_model, X_train, X_test, y_train, y_test)

SVM Results:
               precision    recall  f1-score   support

Não comprador       0.89      0.97      0.93        68
    Comprador       0.92      0.75      0.83        32

     accuracy                           0.90       100
    macro avg       0.91      0.86      0.88       100
 weighted avg       0.90      0.90      0.90       100



In [8]:
# Testando modelo KNN
print("\nKNN Results:")
knn_model = KNeighborsClassifier(n_neighbors=5)  # n_neighbors pode ser ajustado conforme o resultado
knn_accuracy, knn_recall, knn_f1 = evaluate_model(knn_model, X_train, X_test, y_train, y_test)


KNN Results:
               precision    recall  f1-score   support

Não comprador       0.96      0.94      0.95        68
    Comprador       0.88      0.91      0.89        32

     accuracy                           0.93       100
    macro avg       0.92      0.92      0.92       100
 weighted avg       0.93      0.93      0.93       100



In [9]:
# resultados para comparação
print("\nComparação de Modelos:")
print(f"SVM - Acurácia: {svm_accuracy:.2f}, Recall: {svm_recall:.2f}, F1-Score: {svm_f1:.2f}")
print(f"KNN - Acurácia: {knn_accuracy:.2f}, Recall: {knn_recall:.2f}, F1-Score: {knn_f1:.2f}")


Comparação de Modelos:
SVM - Acurácia: 0.90, Recall: 0.75, F1-Score: 0.83
KNN - Acurácia: 0.93, Recall: 0.91, F1-Score: 0.89


# RESULTADO

Com esses resultados, o KNN é a melhor opção, pois:

Obteve uma acurácia um pouco superior e apresentou um recall e F1-score mais altos na classe "Comprador", o que é vantajoso se o objetivo é minimizar falsos negativos.