# **Resumo**

Após o pré-processamento realizado, iremos agora partir para a etapa de criação dos modelos de Machila Learning, determinação das métricas para cada modelo, otimização dos melhores modelos e por fim a criação do modelo final.



## **Importação das bibliotecas e ajustes globais**

In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')
import os

from sklearn.dummy import DummyClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier,ExtraTreesClassifier

from sklearn.utils import resample
from sklearn.feature_selection import SelectFromModel
from sklearn.model_selection import RepeatedStratifiedKFold, RandomizedSearchCV
from sklearn.pipeline import Pipeline
from pipelinehelper import PipelineHelper
from joblib import dump
import pickle

sns.set_style('darkgrid')
seed = 324551

ModuleNotFoundError: No module named 'pipelinehelper'

## **Importações de funções próprias e determinação de diretório**

In [None]:
os.chdir("../Funcoes")
from my_classifier import Classifier
os.chdir("../Notebooks")

## **Importação dos dados pré-processados**

In [None]:
df = pd.read_csv('../Dados/Dados_limpos/dados_preprocessados.csv')
df.head(3)

## **Métricas Avaliativas e Modelos Utilizados**

As métricas escolhidas irão ajudar na decisão de qual modelo utilizar com base em sua performance. Serão usadas as seguintes métricas:

1.   ROC AUC
2.   F1 score
3.   Recall
4.   Precisão
5.   Acurácia

Os modelos escolhidos para análise foram:

|Modelo | Pacote |	Método|
|-------|--------|--------|
|LogisticRegression |	sklearn.linear_model |	Regressão Logística|
|DecisionTreeClassifier |	sklearn.tree 	| Árvore de decisão|
|RandomForestClassifier |	sklearn.ensemble |	Ensemble|
|ExtraTreesClassifier |	sklearn.ensemble |	Ensemble|

Para avaliar os medelos, iremos utilizar o ***DummyClassifier***, que irá "chutar" os resultados e usaremos como ***Baseline***.

## **Reamostragem**

Iremos inicialmente realizar uma reamostragem dos dados de forma a balancear a proporção de pacientes que necessitaram ou não de UTI entre os dados de treino e os dados de teste, evitando assim um undersampling ou oversampling.

In [None]:
df['ICU'].value_counts()

In [None]:
icu0 = df.query('ICU == 0')
icu1 = df.query('ICU == 1')
icu1_resample = resample(icu1,
                         n_samples=len(icu0),
                         random_state=SEED)
df_resample = pd.concat([icu1_resample, icu0], axis=0)
df_resample['ICU'].value_counts()

Vemos agora que temos um dataset balanceado, com o mesmo número de pacientes que necessitaram ou não de UTI.

## Criação do Modelo DummyClassifier

In [None]:
dummy = Classifier(DummyClassifier, df, strategy='most_frequent')
dummy.cross_val()

## **LogisticRegression**

In [None]:
lr = Classifier(LogisticRegression, df, max_iter=5000)
lr.cross_val()

## **DecisionTreeClassifier**

In [None]:
dt = Classifier(DecisionTreeClassifier, df)
dt.cross_val()

## **RandomForestClassifier**

In [None]:
rf = Classifier(RandomForestClassifier, df)
rf.cross_val()

## **ExtraTreesClassifier**

In [None]:
et = Classifier(ExtraTreesClassifier, df)
et.cross_val()

## **Análise das Métricas**

### **Curva ROC**

In [None]:
sns.set_palette(sns.color_palette('Set1'), 4)
ax = dummy.plot_roc_curve(color='navy', lw=2, linestyle='--')
lr.plot_roc_curve(ax=ax)
dt.plot_roc_curve(ax=ax)
rf.plot_roc_curve(ax=ax)
et.plot_roc_curve(ax=ax)
plt.show()

Com base na curva ROC, selecionamos os dois modelos com melhor resultado, sendo eles o **RandomForestClassifier** e o **ExtraTreesClassifier**.

## **Otimização dos Modelos Selecionados**

Para a otimização de modelos iremos utilizar duas ferramentas, sendo a primeira o PipelineHelper e a segunda o RandomizedSearchCV.

In [None]:
df_resample_shuffle = df_resample.sample(frac=1, random_state=seed).reset_index(drop=True)

X = df_resample_shuffle.drop('ICU', axis=1)
y = df_resample_shuffle['ICU']

cv = RepeatedStratifiedKFold(n_splits=5, n_repeats=10, random_state=seed)

In [None]:
pipeline = Pipeline([
    ('feature_selection', PipelineHelper([
        ('rf',  SelectFromModel(RandomForestClassifier()))])),
    ('classifier', PipelineHelper([
        ('rf', RandomForestClassifier()),
        ('et', ExtraTreesClassifier())
    ])),
])

param = {
    'feature_selection__selected_model': pipeline.named_steps['feature_selection'].generate({
        'rf__threshold': [0,  'median', 'mean', '1.25*mean'],
        'rf__estimator__random_state':[seed]
    }),
    'classifier__selected_model': pipeline.named_steps['classifier'].generate({
        'rf__bootstrap':[True, False],
        'rf__max_depth': [None, 5, 10, 15,20],
        'rf__max_features' : [4, 'auto', 10],
        'rf__n_estimators': [100, 200, 400, 800],
        'rf__min_samples_split': [2, 3, 5],
        'rf__min_samples_leaf': [1, 2, 3],
        'rf__random_state' : [seed],
        'et__bootstrap':[True, False],
        'et__max_depth': [None, 5, 10, 15, 20],
        'et__n_estimators': [100, 200, 400, 800],
        'et__max_features' : [4, 'auto', 10],
        'et__min_samples_split': [2, 3, 5],
        'et__min_samples_leaf': [1, 2, 3],
        'et__random_state' : [seed]
    })
}

In [None]:
random_search = RandomizedSearchCV(pipe, params, n_jobs=-1, cv=cv, n_iter=2000, scoring='f1_macro', verbose=1, random_state=SEED)
random_search.fit(X,y)

In [None]:
print(f'Os parâmetros do modelo com o melhor resultado foram {random_search.best_params_}\n')
print(f'O melhor resultado para o F1 score foi de {random_search.best_score_}\n')
print(f'O melhor modelo foi {random_search.best_estimator_}')

In [None]:
with open('../Modelos_preditivos/random_search_cv', 'wb') as random_search_file:
    pickle.dump(random_search, random_search_file) 

## **Modelo Final**

In [None]:
best_selection = random_search.best_estimator_['feature_selection'].selected_model 
best_selection

In [None]:
best_classifier = random_search.best_estimator_['classifier'].selected_model 
best_classifier

In [None]:
best_pipeline = Pipeline([('feature_selection', best_selection),('classifier', best_classifier)])
best_pipeline

In [None]:
best = Classifier(best_pipeline, df_resample)
best.cross_val()

In [None]:
best.hist_metrics(kde=True, color=(0.12156862745098039, 0.4666666666666667, 0.7058823529411765, 0.5), 
                  name_estimator='final')
plt.show()

In [None]:
best.plot_confusion(name_estimator='final')
plt.show()

In [None]:
best.confusion_matrix_mean

## **Resultados**

O resultado das métricas obtidas no modelo escolhido foi:

|Métrica |	Média|
|--------| ------|
|ROC AUC |	0.946|
|ACURÁCIA |	0.882|
|PRECISÃO |	0.885|
|F1-SCORE |	0.882|
|RECALL |	0.882|

## **Salvando Modelo Final**

In [None]:
best_pipeline.fit(X, y)
dump(best_pipeline, '../Modelos_preditivos/Modelo_final.joblib')

