In [5]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier
from sklearn.metrics import (accuracy_score, precision_score, recall_score, 
                             f1_score, roc_auc_score, confusion_matrix, 
                             classification_report)

# --- 1. Carregamento e Preparação dos Dados ---

# Carregar o dataset que não teve tratamento de outliers
try:
    df = pd.read_csv('df_com_outliers.csv')
except FileNotFoundError:
    print("Arquivo 'df_com_outliers.csv' não encontrado. Certifique-se de que ele foi salvo pelo notebook 'analise.ipynb'.")
    exit()

print("Formato do DataFrame (com outliers):", df.shape)
print("\nDistribuição da variável-alvo 'has_failure':")
print(df['has_failure'].value_counts(normalize=True))

# Separar variáveis independentes (X) e dependente (y)
X = df.drop('has_failure', axis=1)
y = df['has_failure']

# Dividir os dados em conjuntos de treino e teste
# Usar stratify=y para manter a proporção da variável-alvo em ambos os conjuntos
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)

print(f"\nConjunto de treino: {X_train.shape}")
print(f"Conjunto de teste: {X_test.shape}")


# --- 2. Treinamento e Avaliação dos Modelos ---

# Dicionário com os modelos a serem testados
models = {
    'Random Forest': RandomForestClassifier(random_state=42, n_jobs=-1),
    'XGBoost': XGBClassifier(random_state=42, use_label_encoder=False, eval_metric='logloss')
}

# Loop para treinar e avaliar cada modelo
for name, model in models.items():
    print(f"\n----- Avaliando: {name} -----")
    
    # Treinar o modelo
    model.fit(X_train, y_train)
    
    # Fazer previsões no conjunto de teste
    y_pred = model.predict(X_test)
    y_pred_proba = model.predict_proba(X_test)[:, 1] # Probabilidades para AUC
    
    # Calcular e exibir as métricas de avaliação
    print(f"Acurácia: {accuracy_score(y_test, y_pred):.4f}")
    print(f"Precisão: {precision_score(y_test, y_pred):.4f}")
    print(f"Recall: {recall_score(y_test, y_pred):.4f}")
    print(f"F1-Score: {f1_score(y_test, y_pred):.4f}")
    print(f"ROC AUC: {roc_auc_score(y_test, y_pred_proba):.4f}")
    
    print("\nMatriz de Confusão:")
    print(confusion_matrix(y_test, y_pred))
    
    print("\nRelatório de Classificação Detalhado:")
    print(classification_report(y_test, y_pred))

Formato do DataFrame (com outliers): (21063, 52)

Distribuição da variável-alvo 'has_failure':
has_failure
1    0.618241
0    0.381759
Name: proportion, dtype: float64

Conjunto de treino: (14744, 51)
Conjunto de teste: (6319, 51)

----- Avaliando: Random Forest -----
Acurácia: 0.7075
Precisão: 0.7418
Recall: 0.8083
F1-Score: 0.7736
ROC AUC: 0.7713

Matriz de Confusão:
[[1313 1099]
 [ 749 3158]]

Relatório de Classificação Detalhado:
              precision    recall  f1-score   support

           0       0.64      0.54      0.59      2412
           1       0.74      0.81      0.77      3907

    accuracy                           0.71      6319
   macro avg       0.69      0.68      0.68      6319
weighted avg       0.70      0.71      0.70      6319


----- Avaliando: XGBoost -----


Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)


Acurácia: 0.7074
Precisão: 0.7539
Recall: 0.7819
F1-Score: 0.7677
ROC AUC: 0.7702

Matriz de Confusão:
[[1415  997]
 [ 852 3055]]

Relatório de Classificação Detalhado:
              precision    recall  f1-score   support

           0       0.62      0.59      0.60      2412
           1       0.75      0.78      0.77      3907

    accuracy                           0.71      6319
   macro avg       0.69      0.68      0.69      6319
weighted avg       0.70      0.71      0.71      6319

