# Evaluation models

In [69]:
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import joblib as jb

from yellowbrick.classifier import ConfusionMatrix
from sklearn.metrics import confusion_matrix, classification_report, roc_auc_score, accuracy_score

import warnings
warnings.filterwarnings('ignore')

In [70]:
# Load data X tests to models Group Alpha: 
X_test_alpha = np.loadtxt('../data/processed/X_data/X_test.csv', delimiter=',') 
X_test_alpha_feature = np.loadtxt('../data/processed/X_data/X_test_feature.csv', delimiter=',')

# Load data X tests to models Group Beta:
X_test_beta = np.loadtxt('../data/processed/X_data2/X_test2.csv', delimiter=',') 
X_test_beta_feature = np.loadtxt('../data/processed/X_data2/X_test2_features.csv', delimiter=',') 

# Load data target test
y_test = np.loadtxt('../data/processed/y_test.csv')

print(
    f' Shape X_test_alpha:{X_test_alpha.shape}\n',
    f'Shape X_teste_alpha_feature:{X_test_alpha_feature.shape}\n\n',
    f'Shape X_test_beta:{X_test_beta.shape}\n',
    f'Shape X_test_beta_feature{X_test_beta_feature.shape}'
)

 Shape X_test_alpha:(114, 30)
 Shape X_teste_alpha_feature:(114, 9)

 Shape X_test_beta:(114, 24)
 Shape X_test_beta_feature(114, 7)


In [71]:
# Load models
model_dir = '../models/'
models_dict = {}

for model_file in os.listdir(model_dir):
    if model_file.endswith('.pkl'):
        model_path = os.path.join(model_dir, model_file)
        model = jb.load(model_path)
        model_name = model_file.split('.')[0]
        models_dict[model_name] = model
        print(f'Load model name: {model_name}')

Load model name: model_alpha_rf_feature
Load model name: model_alpha_rf
Load model name: model_beta_rf
Load model name: model_alpha_svc
Load model name: model_beta_xgb
Load model name: model_beta_svc
Load model name: model_beta_svc_feature
Load model name: model_beta_rf_features
Load model name: model_alpha_xgb_feature
Load model name: model_alpha_xgb
Load model name: model_alpha_svc_feature
Load model name: model_beta_xgb_feature


In [72]:
def summary_classification(model:str, X_test):
    model = models_dict[model]
    print(classification_report(y_test, model.predict(X_test), target_names=['B','M']))
    print(f'AUC:{round(roc_auc_score(y_test, model.predict(X_test)),3)}')

## Summary classification (Precision, recall and F1-score)

### Random Forest 

#### Group model Alpha

In [73]:
# All feature:
summary_classification('model_alpha_rf', X_test_alpha)

              precision    recall  f1-score   support

           B       0.99      0.91      0.94        75
           M       0.84      0.97      0.90        39

    accuracy                           0.93       114
   macro avg       0.91      0.94      0.92       114
weighted avg       0.94      0.93      0.93       114

AUC:0.941


In [74]:
# Feature seletec: 
summary_classification('model_alpha_rf_feature', X_test_alpha_feature)

              precision    recall  f1-score   support

           B       0.98      0.87      0.92        75
           M       0.79      0.97      0.87        39

    accuracy                           0.90       114
   macro avg       0.89      0.92      0.90       114
weighted avg       0.92      0.90      0.91       114

AUC:0.921


#### Group Model Beta

In [75]:
# All feature :
summary_classification('model_beta_rf', X_test_beta)

              precision    recall  f1-score   support

           B       0.99      0.92      0.95        75
           M       0.86      0.97      0.92        39

    accuracy                           0.94       114
   macro avg       0.92      0.95      0.93       114
weighted avg       0.94      0.94      0.94       114

AUC:0.947


In [76]:
# Feature seleted:
summary_classification('model_beta_rf_features', X_test_beta_feature)

              precision    recall  f1-score   support

           B       0.99      0.88      0.93        75
           M       0.81      0.97      0.88        39

    accuracy                           0.91       114
   macro avg       0.90      0.93      0.91       114
weighted avg       0.92      0.91      0.91       114

AUC:0.927


### XGBOOSTClassifier

#### Group model Alpha

In [77]:
# All feature: 
summary_classification('model_alpha_xgb', X_test_alpha)

              precision    recall  f1-score   support

           B       0.99      0.91      0.94        75
           M       0.84      0.97      0.90        39

    accuracy                           0.93       114
   macro avg       0.91      0.94      0.92       114
weighted avg       0.94      0.93      0.93       114

AUC:0.941


In [78]:
# Feature selected
summary_classification('model_alpha_xgb_feature', X_test_alpha_feature)

              precision    recall  f1-score   support

           B       0.99      0.88      0.93        75
           M       0.81      0.97      0.88        39

    accuracy                           0.91       114
   macro avg       0.90      0.93      0.91       114
weighted avg       0.92      0.91      0.91       114

AUC:0.927


#### Group Model Beta

In [79]:
# All feature:
summary_classification('model_beta_xgb', X_test_beta)

              precision    recall  f1-score   support

           B       0.99      0.92      0.95        75
           M       0.86      0.97      0.92        39

    accuracy                           0.94       114
   macro avg       0.92      0.95      0.93       114
weighted avg       0.94      0.94      0.94       114

AUC:0.947


In [80]:
# Feature selected:
summary_classification('model_beta_xgb_feature', X_test_beta_feature)

              precision    recall  f1-score   support

           B       0.98      0.87      0.92        75
           M       0.79      0.97      0.87        39

    accuracy                           0.90       114
   macro avg       0.89      0.92      0.90       114
weighted avg       0.92      0.90      0.91       114

AUC:0.921


### SVM Classifier

#### Group model Alpha

In [81]:
# All feature:
summary_classification('model_alpha_svc', X_test_alpha)

              precision    recall  f1-score   support

           B       0.99      0.92      0.95        75
           M       0.86      0.97      0.92        39

    accuracy                           0.94       114
   macro avg       0.92      0.95      0.93       114
weighted avg       0.94      0.94      0.94       114

AUC:0.947


In [82]:
# Feature selected:
summary_classification('model_alpha_svc_feature',X_test_alpha_feature)

              precision    recall  f1-score   support

           B       0.99      0.89      0.94        75
           M       0.83      0.97      0.89        39

    accuracy                           0.92       114
   macro avg       0.91      0.93      0.92       114
weighted avg       0.93      0.92      0.92       114

AUC:0.934


#### Group model Beta

In [83]:
# All feature: 
summary_classification('model_beta_svc', X_test_beta)

              precision    recall  f1-score   support

           B       0.99      0.91      0.94        75
           M       0.84      0.97      0.90        39

    accuracy                           0.93       114
   macro avg       0.91      0.94      0.92       114
weighted avg       0.94      0.93      0.93       114

AUC:0.941


In [84]:
# Feature selected:
summary_classification('model_beta_svc_feature', X_test_beta_feature)

              precision    recall  f1-score   support

           B       0.99      0.88      0.93        75
           M       0.81      0.97      0.88        39

    accuracy                           0.91       114
   macro avg       0.90      0.93      0.91       114
weighted avg       0.92      0.91      0.91       114

AUC:0.927


In [85]:
# plot confusion matrix
y_prev = model_rf3.predict(X_test)
conf_mat = confusion_matrix(y_test, y_prev)

# plot
sns.heatmap(conf_mat, annot=True, cmap='Blues', fmt='g')
plt.title('Figure 3 - Confusion Matrix')
plt.xlabel('Predict')
plt.ylabel('Real')
plt.show()

NameError: name 'model_rf3' is not defined

# Conclusion

Nesse caso o modelo que contém todas as caracteristicas/atributos desempenhou melhor em compração ao modelo que foi realizado uma seleção de atributos através da aplicação da técnica RandomForest para seleção dos principais atributos. 

Esse fator pode ser explicado pois, com a redução de caracteristicas o modelo perde complexidade, ou seja, é exposto a menores informações para o aprendizado de padrões. O método ensemble baggin no caso o RandomForest é um algorimto que pode ajustar facilmente aos dados. 

Portanto, para este caso, onde o conjunto de dados para treinamento e teste são pequenos, o uso de seleção de variáveis não apresenta ser viável, pois não há uma complexidade que possa provocar um ganho de tempo considerável. E como todas as caracteristicas trouxeram um desempenho melhor sem alterar praticamente nada em tempo de execução, a escolha do modelo com todas as carateristicas é o mais adequado. 

Esse trabalho teve como objetivo principal a estruturação de um padrão para um projeto de classificação. Dividindo em etapas como o processo de análise exploratória, preparação dos dados, modelagens e avalições dos modelos. Por fim o melhor modelo ficará disponível para o deploy. Para deploy do modelo será realizado um projeto em fastapi para sua implemetnação e disponibilização via web. 