# Avaliação de Modelos de Reclamações de Aeroporto

Avaliação dos modelos treinados utilizando o conjunto de teste para verificar desempenho em dados não vistos.

In [38]:
import numpy as np
import pandas as pd
from sklearn.metrics import classification_report, confusion_matrix
import joblib

X_test_set = pd.read_csv("data/processed/X_test.csv")
y_test = pd.read_csv("data/processed/y_test.csv").values.ravel()


## Carregamento dos modelos treinados

Importação dos modelos Decision Tree, Random Forest e Logistic Regression previamente treinados.

In [39]:
best_dt = joblib.load("models/decision_tree_model.pkl")
best_rf = joblib.load("models/random_forest_model.pkl")
best_logreg = joblib.load("models/logreg_model.pkl")

## Predição com os modelos

Geração das predições para cada modelo utilizando o conjunto de teste.

In [40]:
# Decision Tree
y_pred_dt = best_dt.predict(X_test_set)

# Random Forest
y_pred_rf = best_rf.predict(X_test_set)

# Logistic Regression
y_pred_logreg = best_logreg.predict(X_test_set)


## Avaliação dos modelos

Cálculo de classification reports e matrizes de confusão para cada modelo, verificando desempenho em dados de teste.

In [41]:
# Decision Tree
print("Decision Tree Classification Report (Teste):\n", classification_report(y_test, y_pred_dt))
print("Decision Tree Confusion Matrix (Teste):\n", confusion_matrix(y_test, y_pred_dt))

# Random Forest
print("Random Forest Classification Report (Teste):\n", classification_report(y_test, y_pred_rf))
print("Random Forest Confusion Matrix (Teste):\n", confusion_matrix(y_test, y_pred_rf))

# Logistic Regression
print("Logistic Regression Classification Report (Teste):\n", classification_report(y_test, y_pred_logreg))
print("Logistic Regression Confusion Matrix (Teste):\n", confusion_matrix(y_test, y_pred_logreg))


Decision Tree Classification Report (Teste):
               precision    recall  f1-score   support

           0       0.73      0.34      0.46       621
           1       0.49      0.83      0.62       466

    accuracy                           0.55      1087
   macro avg       0.61      0.59      0.54      1087
weighted avg       0.63      0.55      0.53      1087

Decision Tree Confusion Matrix (Teste):
 [[211 410]
 [ 77 389]]
Random Forest Classification Report (Teste):
               precision    recall  f1-score   support

           0       0.70      0.36      0.48       621
           1       0.48      0.80      0.60       466

    accuracy                           0.55      1087
   macro avg       0.59      0.58      0.54      1087
weighted avg       0.61      0.55      0.53      1087

Random Forest Confusion Matrix (Teste):
 [[224 397]
 [ 94 372]]
Logistic Regression Classification Report (Teste):
               precision    recall  f1-score   support

           0       

## Comparação entre valores reais e predições

Criação de DataFrames comparando os valores reais com as predições de cada modelo, permitindo análise detalhada de acertos e erros.

In [42]:
# Decision Tree
comparison_dt = pd.DataFrame({
    'y_real': y_test,
    'y_pred': y_pred_dt
})
print("Decision Tree - Comparação alvo x predição (teste):")
print(comparison_dt.head(10))

# Random Forest
comparison_rf = pd.DataFrame({
    'y_real': y_test,
    'y_pred': y_pred_rf
})
print("Random Forest - Comparação alvo x predição (teste):")
print(comparison_rf.head(10))

# Logistic Regression
comparison_logreg = pd.DataFrame({
    'y_real': y_test,
    'y_pred': y_pred_logreg
})
print("Logistic Regression - Comparação alvo x predição (teste):")
print(comparison_logreg.head(10))


Decision Tree - Comparação alvo x predição (teste):
   y_real  y_pred
0       1       1
1       0       1
2       0       0
3       1       0
4       1       1
5       0       1
6       0       1
7       0       0
8       1       1
9       1       1
Random Forest - Comparação alvo x predição (teste):
   y_real  y_pred
0       1       1
1       0       1
2       0       0
3       1       0
4       1       1
5       0       1
6       0       1
7       0       0
8       1       0
9       1       1
Logistic Regression - Comparação alvo x predição (teste):
   y_real  y_pred
0       1       1
1       0       1
2       0       0
3       1       1
4       1       1
5       0       1
6       0       0
7       0       0
8       1       1
9       1       1
