# **Modelos:**

**Classificação**

Um modelo de classificação binária tem como objetivo decidir em qual classe uma nova observação pertence dentre duas classes possíveis. Em geral as duas classes, denominadas de positiva (P) e negativa (N), indicam a ocorrência ou não de um determinado evento. Um exemplo seria classificar se um determinado paciente possui uma determinada doença (positivo) ou não (negativo), no nosso caso, se um paciente irá para a UTI ou não.

A avaliação de um modelo de classificação é feita a partir da comparação entre as classes preditas pelo modelo e as classes verdadeiras de cada exemplo. Todas as métricas de classificação têm como objetivo comum medir quão distante o modelo está da classificação perfeita, porém fazem isto de formas diferentes. 

**Aqui criamos os modelos baseados nos resultados obtidos na primeira vez que rodamos o Hyperopt-sklearn.**

In [None]:
x = dados_finais.drop(['ICU', 'WINDOW', 'PATIENT_VISIT_IDENTIFIER'], axis=1)
y = dados_finais['ICU']

x_treino, x_teste, y_treino, y_teste = train_test_split(x,y, test_size=0.30, random_state=3165)

modelo_xgb = XGBClassifier(base_score=0.5, booster='gbtree',
              colsample_bylevel=0.7122430515098567, colsample_bynode=1,
              colsample_bytree=0.6563933196495118, gamma=0.023202700338567202,
              learning_rate=0.014756432963507891, max_delta_step=0, max_depth=2,
              min_child_weight=1, n_estimators=2400, n_jobs=1,
              nthread=None, objective='binary:logistic', random_state=3,
              reg_alpha=0.0006799769318328834, reg_lambda=3.069072358424827,
              scale_pos_weight=1, seed=3, silent=None,
              subsample=0.621190538706629, verbosity=1)

modelo_xgb.fit(x_treino, y_treino)
y_pred = modelo_xgb.predict(x_teste)
y_proba = modelo_xgb.predict_proba(x_teste)[:,1]


# Resultados 
print(classification_report(y_teste, y_pred))
print('\n')
print(f'AUC: ', round(roc_auc_score(y_teste, y_proba),2))
print(f'Precision-Recall: ', round(average_precision_score(y_teste, y_proba), 2))


              precision    recall  f1-score   support

           0       0.82      0.75      0.78        63
           1       0.67      0.77      0.72        43

    accuracy                           0.75       106
   macro avg       0.75      0.76      0.75       106
weighted avg       0.76      0.75      0.76       106



AUC:  0.79
Precision-Recall:  0.73


O **XGBClassifier** ou **XGBoost**, pode ser usado para problemas de regressão, pontuação ou classificação. O nome XGBoost vem de e**X**treme **G**radient **Boost**ing, e representa uma categoria de algoritmo baseada em Decision Trees (árvores de decisão) com Gradient Boosting (aumento de gradiente).

In [None]:
x = dados_finais.drop(['ICU', 'WINDOW', 'PATIENT_VISIT_IDENTIFIER'], axis=1)
y = dados_finais['ICU']

x_treino, x_teste, y_treino, y_teste = train_test_split(x,y, test_size=0.30, random_state=3165)

modelo_gradbc = GradientBoostingClassifier(ccp_alpha=0.0, criterion='friedman_mse', init=None,
                           learning_rate=0.10424580789804516, loss='deviance',
                           max_depth=None, max_features='sqrt',
                           max_leaf_nodes=None, min_impurity_decrease=0.0,
                           min_impurity_split=None, min_samples_leaf=9,
                           min_samples_split=2, min_weight_fraction_leaf=0.0,
                           n_estimators=17, n_iter_no_change=None,
                           presort='deprecated', random_state=4,
                           subsample=0.5083091113075304, tol=0.0001,
                           validation_fraction=0.1, verbose=0,
                           warm_start=False)

modelo_gradbc.fit(x_treino, y_treino)
y_pred = modelo_gradbc.predict(x_teste)
y_proba = modelo_gradbc.predict_proba(x_teste)[:,1]


# Resultados 
print(classification_report(y_teste, y_pred))
print('\n')
print(f'AUC: ', round(roc_auc_score(y_teste, y_proba),2))
print(f'Precision-Recall: ', round(average_precision_score(y_teste, y_proba), 2))

              precision    recall  f1-score   support

           0       0.73      0.78      0.75        55
           1       0.74      0.69      0.71        51

    accuracy                           0.74       106
   macro avg       0.74      0.73      0.73       106
weighted avg       0.74      0.74      0.74       106



AUC:  0.77
Precision-Recall:  0.71


O modelo **Gradiente Boosting** funciona criando um modelo inicial e apartir dos erros deste modelo ele cria outro levando em consideração apenas os dados do erro, e assim ele vai criando iterações até que ele utilize todos os erros residuais e faça a previsão final.

In [None]:
x = dados_finais.drop(['ICU', 'WINDOW', 'PATIENT_VISIT_IDENTIFIER'], axis=1)
y = dados_finais['ICU']

x_treino, x_teste, y_treino, y_teste = train_test_split(x,y, test_size=0.30, random_state=3165)

modelo_rdnforest = RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=2, max_features='sqrt',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=18, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=968, n_jobs=1,
                       oob_score=False, random_state=2, verbose=False,
                       warm_start=False)

modelo_rdnforest.fit(x_treino, y_treino)
y_pred = modelo_rdnforest.predict(x_teste)
y_proba = modelo_rdnforest.predict_proba(x_teste)[:,1]


# Resultados 
print(classification_report(y_teste, y_pred))
print('\n')
print(f'AUC: ', round(roc_auc_score(y_teste, y_proba),2))
print(f'Precision-Recall: ', round(average_precision_score(y_teste, y_proba), 2))

              precision    recall  f1-score   support

           0       0.74      0.83      0.78        63
           1       0.69      0.58      0.63        43

    accuracy                           0.73       106
   macro avg       0.72      0.70      0.71       106
weighted avg       0.72      0.73      0.72       106



AUC:  0.75
Precision-Recall:  0.64


In [None]:
# Modelo LGBM
x = dados_finais.drop(['ICU', 'WINDOW', 'PATIENT_VISIT_IDENTIFIER'], axis=1)
y = dados_finais['ICU']

x_treino, x_teste, y_treino, y_teste = train_test_split(x,y, test_size=0.30, random_state=3165)

modelo_lgbm = LGBMClassifier(reg_lambda= 1.8,
                              learning_rate= 1.0,
                              max_depth= 0,
                              min_child_samples= 11.1,
                              min_data_in_leaf= 33,
                              n_estimators= 647,
                              num_leaves= 22)

modelo_lgbm.fit(x_treino, y_treino)
#y_pred = modelo_lgbm.predict(x_teste)
#y_proba = modelo_lgbm.predict_proba(x_teste)[:,1]
y_proba2 = modelo_lgbm.predict_proba(x_teste)
y_proba = y_proba2[:,1]


# Resultados 
print(classification_report(y_teste, y_pred))
print('\n')
print(f'AUC: ', round(roc_auc_score(y_teste, y_proba),2))
print(f'Precision-Recall: ', round(average_precision_score(y_teste, y_proba), 2))

              precision    recall  f1-score   support

           0       0.69      0.87      0.77        55
           1       0.81      0.57      0.67        51

    accuracy                           0.73       106
   macro avg       0.75      0.72      0.72       106
weighted avg       0.74      0.73      0.72       106



AUC:  0.79
Precision-Recall:  0.79


 LightGBM é um sistema distribuído e eficiente estrutura de aumento de gradiente que usa aprendizagem baseada em árvores de decisão. É baseado em histograma e coloca valores contínuos em compartimentos discretos, o que leva a um treinamento mais rápido e um uso mais eficiente da memória. Ele usa um algoritmo de crescimento de árvore em folha, que é diferente de outros algoritmos baseados em árvore que usam crescimento em profundidade. Os algoritmos de crescimento de árvores em folhas tendem a convergir mais rapidamente que os em profundidade. No entanto, eles tendem a ser mais propensos a sobreajuste (overfitting).

 Segundo os documentos oficiais do LightGBM as vantagens dele são: 
 
 
- Maior velocidade de treinamento e maior eficiência;

- Menor uso de memória;

- Maior precisão;

- Suporte ao aprendizado paralelo e GPU;

- Capaz de lidar com dados em larga escala.

# **Selecionando os melhores modelos**

### As métricas utilizadas neste projeto são as mais indicadas para problemas de classificação binária como é o nosso caso, dado que temos que prever se um paciente com COVID-19 irá ou não para a UTI em até 2h após admissão no hospital. É por isso que utilizaremos o AUC, Matriz de Confusão e estatística Kolmogorov-Smirnov como as principais metricas de desempenho dos modelos e como critério de escolha do melhor modelo que poderá ser levado para produção, porque estas métricas colocam o mesmo peso tanto nas classes negativas como nas positivas. Em todos eles quanto mais próximo de 1.0 melhor é o modelo.

In [None]:
def modelo_pipeline_com_seleciona_features(modelo, dados, n_splits, n_repeats, funcao_seleciona_features):

    np.random.seed(3165)
    dados = dados.sample(frac=1)
    y = dados["ICU"]
    x = dados.drop(["ICU","WINDOW", 'PATIENT_VISIT_IDENTIFIER'], axis=1)

    pipeline = Pipeline([('cat_selector', funcao_seleciona_features),
                         ('Modelo', modelo)])    
    
    cv = RepeatedStratifiedKFold(n_splits = n_splits, n_repeats=n_repeats)
    resultados=cross_validate(pipeline, x, y, cv=cv, scoring='roc_auc', return_train_score=True)
    
    auc_medio = np.mean(resultados['test_score'])
    auc_medio_treino = np.mean(resultados['train_score'])

    auc_std = np.std(resultados['test_score'])

    # Calculando o Kolmogorov-Smirnov statistic
    res = binary_ks_curve(y_teste, y_pred)
    ks_stat = res[3]
    ks_stat

    print(classification_report(y_teste, y_pred))
    print('\n')
    print(f'Kolmogorov-Smirnov statistic: ', ks_stat)
    print('\n')
    print(f'Desvio padrão do AUC  {auc_std}')
    print('\n')
    return auc_medio, auc_medio_treino

In [None]:
# Melhor modelo para a seleção de features RemoveCorrVar
# Modelo 1
modelo_pipeline_com_seleciona_features(modelo_xgb, dados_finais, 5, 10, RemoveCorrVar())

              precision    recall  f1-score   support

           0       0.72      0.75      0.73        55
           1       0.71      0.69      0.70        51

    accuracy                           0.72       106
   macro avg       0.72      0.72      0.72       106
weighted avg       0.72      0.72      0.72       106



Kolmogorov-Smirnov statistic:  0.43172905525846705


Desvio padrão do AUC  0.040574967329858755




(0.7942857854864432, 0.9998920171832988)

In [None]:
# Modelo 2
modelo_pipeline_com_seleciona_features(modelo_lgbm, dados_finais, 5, 10, RemoveCorrVar())

              precision    recall  f1-score   support

           0       0.72      0.75      0.73        55
           1       0.71      0.69      0.70        51

    accuracy                           0.72       106
   macro avg       0.72      0.72      0.72       106
weighted avg       0.72      0.72      0.72       106



Kolmogorov-Smirnov statistic:  0.43172905525846705


Desvio padrão do AUC  0.04648291168993006




(0.7585959928229665, 1.0)

In [None]:
# Melhor modelo usando SelecKBest
# Modelo 3
modelo_pipeline_com_seleciona_features(modelo_gradbc, dados_finais, 5, 10, SelectKBest(k=100))

              precision    recall  f1-score   support

           0       0.72      0.75      0.73        55
           1       0.71      0.69      0.70        51

    accuracy                           0.72       106
   macro avg       0.72      0.72      0.72       106
weighted avg       0.72      0.72      0.72       106



Kolmogorov-Smirnov statistic:  0.43172905525846705


Desvio padrão do AUC  0.04462134445211362




(0.779557914673046, 0.9607990543004605)

In [None]:
# Melhor modelo usando VarianceThreshold
# Modelo 4
modelo_pipeline_com_seleciona_features(modelo_rdnforest, dados_finais, 5, 10, VarianceThreshold())

              precision    recall  f1-score   support

           0       0.72      0.75      0.73        55
           1       0.71      0.69      0.70        51

    accuracy                           0.72       106
   macro avg       0.72      0.72      0.72       106
weighted avg       0.72      0.72      0.72       106



Kolmogorov-Smirnov statistic:  0.43172905525846705


Desvio padrão do AUC  0.0378861325726055




(0.7851370614035088, 0.8834056927403654)

In [None]:
# Modelos usando SelectFromModel
# Modelo 5
modelo_pipeline_com_seleciona_features(modelo_rdnforest, dados_finais, 5, 10, SelectFromModel(estimator=modelo_rdnforest, max_features = 100))

              precision    recall  f1-score   support

           0       0.72      0.75      0.73        55
           1       0.71      0.69      0.70        51

    accuracy                           0.72       106
   macro avg       0.72      0.72      0.72       106
weighted avg       0.72      0.72      0.72       106



Kolmogorov-Smirnov statistic:  0.43172905525846705


Desvio padrão do AUC  0.03883210396455561




(0.7753613437001593, 0.8733160367153939)

In [None]:
# Modelo 6
modelo_pipeline_com_seleciona_features(modelo_gradbc, dados_finais, 5, 10, SelectFromModel(estimator=modelo_gradbc, max_features = 100))

              precision    recall  f1-score   support

           0       0.72      0.75      0.73        55
           1       0.71      0.69      0.70        51

    accuracy                           0.72       106
   macro avg       0.72      0.72      0.72       106
weighted avg       0.72      0.72      0.72       106



Kolmogorov-Smirnov statistic:  0.43172905525846705


Desvio padrão do AUC  0.042403289878599454




(0.7678319377990431, 0.9654695120066755)

In [None]:
# Modelo 7
modelo_pipeline_com_seleciona_features(modelo_xgb, dados_finais, 5, 10, SelectFromModel(estimator=modelo_xgb, max_features = 100))

              precision    recall  f1-score   support

           0       0.72      0.75      0.73        55
           1       0.71      0.69      0.70        51

    accuracy                           0.72       106
   macro avg       0.72      0.72      0.72       106
weighted avg       0.72      0.72      0.72       106



Kolmogorov-Smirnov statistic:  0.43172905525846705


Desvio padrão do AUC  0.04143480043794054




(0.7890829346092504, 0.999962689680749)

In [None]:
# Modelo 8
modelo_pipeline_com_seleciona_features(modelo_lgbm, dados_finais, 5, 10, SelectFromModel(estimator=modelo_lgbm, max_features = 100))

              precision    recall  f1-score   support

           0       0.72      0.75      0.73        55
           1       0.71      0.69      0.70        51

    accuracy                           0.72       106
   macro avg       0.72      0.72      0.72       106
weighted avg       0.72      0.72      0.72       106



Kolmogorov-Smirnov statistic:  0.43172905525846705


Desvio padrão do AUC  0.04579353448421466




(0.7677566786283891, 1.0)

### Podemos observar que o **Modelo 1** é o que tem apresentado as melhores métricas, mas para confirmar que este é de fato o melhor modelo a ser levado em produção vamos criar alguns gráficos que nos ajude a tomar uma decisão mais embasada. Veremos isso na próxima sessão, Gráficos de desempenho.