In [59]:
import pandas as pd;
from xgboost import XGBClassifier;
from sklearn import metrics, model_selection;
from sklearn.ensemble import RandomForestClassifier;


In [60]:
def avaliar_modelo(modelo, X_test, y_test):
    y_pred = model_selection.cross_val_predict(modelo, X_test, y_test, cv=model_selection.StratifiedKFold(n_splits=5, shuffle=True));

    accuracy = metrics.accuracy_score(y_test, y_pred);
    precision = metrics.precision_score(y_test, y_pred, average="macro", zero_division=0);
    recall = metrics.recall_score(y_test, y_pred, average="macro");
    f1 = metrics.f1_score(y_test, y_pred, average="macro");
    confusion_matrix = metrics.confusion_matrix(y_test, y_pred);

    print(f"Accuracy: {accuracy*100:.2f}%");
    print(f"Precision: {precision:.3f}");
    print(f"Recall: {recall:.3f}");
    print(f"F1 Score: {f1:.3f}");
    print(f"Confusion Matrix:\n{confusion_matrix}");

In [61]:
df = pd.read_csv('https://raw.githubusercontent.com/cassiusf/datasets/main/customers_data.csv');
df = df.dropna();

target = df['Channel'].map({2: 1, 1: 0});
data = df.drop(columns=['Channel']);

X_train, X_test, y_train, y_test = model_selection.train_test_split(data, target, test_size=0.25);

In [62]:
random_forest = RandomForestClassifier();
random_forest.fit(X_train, y_train);
avaliar_modelo(random_forest, X_test, y_test);

Accuracy: 93.64%
Precision: 0.927
Recall: 0.920
F1 Score: 0.924
Confusion Matrix:
[[74  3]
 [ 4 29]]


In [63]:
xgboost = XGBClassifier();
xgboost.fit(X_train, y_train);
avaliar_modelo(xgboost, X_test, y_test);

Accuracy: 90.91%
Precision: 0.892
Recall: 0.892
F1 Score: 0.892
Confusion Matrix:
[[72  5]
 [ 5 28]]


### Questão 3: Qual modelo você utilizaria, a partir dos resultados da execução dos dois modelos? Justifique sua resposta.

A partir dos resultados obtidos, observa-se que, embora ambos os modelos tenham apresentado bons desempenhos, o Random Forest superou o XGBoost em todas as métricas avaliadas. Apesar da diferença não ser muito grande, a matriz de confusão mostra que o Random Forest cometeu menos erros de classificação, reforçando sua maior confiabilidade. Tendo esses dados em mente, o Random Forest seria escolhido como modelo final, por manter um desempenho superior e mais consistente entre as métricas, garantindo maior capacidade de generalização nesse problema específico.