# Modeling
Esse Notebook visa apresentar a etapa de definição do modelo de machine learning usado para fazer a predição da ```ICU```.<br>
Após a etapa de *Feature Engineering* os dados estão prontos para serem usados de maneira a auxiliar a classificação.<br>

<a name="sumario"></a>
# Sumário
<!--ts-->
   * [Importe das Bibliotecas](#import)
   * [Leitura dos dados](#leitura)
   * [Metrica de avaliação](#metrics)
   * [Escalar o AGE_PERCENTIL](#age)
   * [Features com alta correlação](#corr)
<!--te-->

<a name="import"></a>
# Importe das Bibliotecas

## Bibliotecas Externas

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import LeaveOneOut
from sklearn.model_selection import cross_validate
from sklearn.dummy import DummyClassifier
from sklearn.model_selection import RepeatedStratifiedKFold

## Bibliotecas Internas

In [7]:
import sys
sys.path.insert(1, "../src/")
from supervised import LazyClassifier
from modeling import run_model_cv

-----------------
Retornar ao [Sumário](#sumario)

<a name="leitura"></a>
# Leitura dos dados
Faz a leitura dos dados que serão usados para a modelagem.<br>
**```df : pd.DataFrame```** é o DataFrame contendo os dados que já passaram pela etapa de *feature engineering*.

In [2]:
# Leitura do raw data desse  projeto no Github
df = pd.read_csv('../data/processed/df_featured.csv', index_col='Unnamed: 0')
df.index.names = ['PATIENT_VISIT_IDENTIFIER']

# Imprime na tela todas as colunas em vez de as 10 primeiras e 10 ultimas
pd.set_option('max_columns', df.shape[1])
df.head()

Unnamed: 0_level_0,AGE_ABOVE65,AGE_SCALED,DISEASE GROUPING 1,DISEASE GROUPING 3,DISEASE GROUPING 5,HTN,IMMUNOCOMPROMISED,ALBUMIN,BE_VENOUS,FFA,GGT,GLUCOSE,HEMOGLOBIN,LACTATE,LINFOCITOS,NEUTROPHILES,P02_VENOUS,PCR,SAT02_VENOUS,SODIUM,DIMER,BLOODPRESSURE_DIASTOLIC_MEAN,RESPIRATORY_RATE_MEAN,TEMPERATURE_MEAN,BLOODPRESSURE_SISTOLIC_MEDIAN,OXYGEN_SATURATION_MEDIAN,HEART_RATE_MIN,RESPIRATORY_RATE_MIN,BLOODPRESSURE_DIASTOLIC_MAX,BLOODPRESSURE_MAX_MEDIAN_RESIDUAL,HEART_RATE_MAX,OXYGEN_SATURATION_MAX,BLOODPRESSURE_SISTOLIC_DIFF,ICU
PATIENT_VISIT_IDENTIFIER,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1
0,0,0.111111,0.0,0.0,0.0,1.0,0.0,0.605263,-1.0,-0.742004,-0.958528,-0.851024,-0.02439,1.0,-0.655602,-0.789916,-0.704142,-0.999244,0.345679,-0.142857,-0.974174,0.185185,-0.389831,-0.285714,-0.276923,0.842105,-0.435897,-0.285714,-0.179487,-0.017708,-0.671642,0.842105,-1.0,0
1,0,0.0,0.0,0.0,0.0,0.0,0.0,0.605263,-1.0,-0.742004,-0.988318,-0.891993,-0.170732,1.0,-0.582988,-0.891557,-0.704142,-0.951607,0.345679,-0.028571,-0.978029,0.185185,-0.457627,-0.107143,-0.523077,1.0,-0.316239,-0.357143,-0.179487,-0.019761,-0.567164,1.0,-1.0,0
2,0,0.222222,0.0,0.0,0.0,0.0,0.0,0.605263,-0.863874,-0.742004,-0.958528,-0.206704,0.073171,1.0,-0.815353,-0.952781,-0.656805,-0.962193,0.481481,0.066667,-0.978029,0.08642,-0.525424,0.404762,-0.384615,0.684211,-0.316239,-0.428571,-0.247863,-0.018606,-0.567164,0.684211,-1.0,0
3,0,0.0,0.0,0.0,0.0,0.0,0.0,0.605263,-1.0,-0.742004,-0.958528,-0.891993,-0.268293,1.0,-0.481328,-0.921569,-0.704142,-0.981474,0.345679,0.066667,-0.991905,-0.160494,-0.525424,-0.142857,-0.692308,0.947368,-0.247863,-0.428571,-0.418803,-0.021172,-0.507463,0.947368,-1.0,0
4,1,0.777778,0.0,0.0,1.0,0.0,1.0,0.0,-0.884817,-0.675906,-0.751168,-0.810056,-0.47561,-0.793745,-0.798755,-0.893157,-0.91716,-0.443856,-0.703704,0.066667,-0.979262,0.901235,-0.169492,0.142857,-0.338462,0.789474,-0.042735,-0.428571,0.316239,-0.018221,-0.328358,0.789474,-1.0,1


<a name="metrics"></a>
# Métrica de avaliação:
A métrica de avaliação utilizada para determinar o modelo de machine learning será o **ROC AUC**.<br>
* **ROC** do inglês *Receiver Operating Characteristics* é uma curva plotada entre os eixos *Taxa de Verdadeiros Positivos* e a *Taxa de Falsos Positivos*. Essa métrica mede o quanto o modelo consegue separar o binômio de saída entre suas duas classes (```ICU = 0``` e ```ICU = 1```).
* **AUC** do inglês *Area Under the Curve* é a maneira de resumir a curva **ROC** em um único valor real, de maneira a facilitar a comparação com outros modelos. Seria o mesmo que calcular a inegral do ROC<br>
* **ROC AUC**<br>
    * O valor será próximo de 0.5 se o modelo não tiver capacidade de separar as variáveis de saída em suas respectivas classes. Imagine que o modelo Tem 50% de verdadeiro positivo e 50% de falso positivo, ou seja, acerta em 50% das tentativas.
    * Quanto mais o valor se aproxima de 1.0, mais capacidade o modelo tem de separar os dois grupos, ou classes, acertando muito mais os Verdadeiros Positivos que errando.
    * O inverso também é verdadeiro. Quanto mais o valor se aproxima de 0, significa que o modelo também tem a capacidade de separar o binômio de saída em dois grupos, só que nesse caso, errando muito, pois teria um valor de Falsos Verdadeiros muito grande. Como a saída tem 2 estados, sendo 0 ou 1, poderia ser usado o inverso (NOT) da resposta e ainda assim o modelo acertaria bastante.

# Dummy Classifier
Essa etapa visa criar um modelo genérico que faz predições dos dados de entrada usando regras bem simples. Ter um modelo "bobo" que usa uma regra simples é importante para avaliar o modelo final, pois se espera do modelo a ser implementado que ao menos seja melhor que escolher aleatóriamente entre as alternativas de saída, ou então "chutar" a alternativa de saída mais comum.

In [3]:
run_model_cv('DummyClassifier', DummyClassifier, df, 7, 10)

NameError: name 'run_model_cv' is not defined

Vemos que o DummyClassifier encontrou um ROC AUC Médio de **0.5**, logo, essa deve ser a meta inicial a ser batida.

In [4]:
run_model_cv('RandomForestClassifier', RandomForestClassifier, df, 70, 5)

NameError: name 'run_model_cv' is not defined

In [5]:
run_model_cv('RandomForestClassifier', RandomForestClassifier, df, 5, 5)

NameError: name 'run_model_cv' is not defined

In [36]:
y = df["ICU"]
X = df.drop(["ICU"], axis=1)
model_list = []
for _ in range(100):
    print(_)
    X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, shuffle=True)#test_size=0.10)
    clf = LazyClassifier(verbose=0,ignore_warnings=True, custom_metric=None)
    models,predictions = clf.fit(X_train, X_test, y_train, y_test)
    model_list.append(models['ROC AUC'])

0


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.64it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.51it/s]


1


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.88it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.36it/s]


2


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 14.01it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.71it/s]


3


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 14.01it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.70it/s]


4


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.09it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.66it/s]


5


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.88it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.57it/s]


6


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:02<00:00, 14.81it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.85it/s]


7


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:02<00:00, 15.12it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.82it/s]


8


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:01<00:00, 14.84it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 13.00it/s]


9


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:02<00:00, 15.07it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.75it/s]


10


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:01<00:00, 15.22it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 13.15it/s]


11


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 14.16it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.53it/s]


12


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:02<00:00, 14.94it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.78it/s]


13


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.94it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.66it/s]


14


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 14.14it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.92it/s]


15


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 14.48it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.84it/s]


16


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.81it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.57it/s]


17


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 14.19it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.64it/s]


18


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.84it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.65it/s]


19


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 14.16it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.76it/s]


20


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.71it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.68it/s]


21


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.22it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.77it/s]


22


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.99it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.40it/s]


23


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:01<00:00, 14.81it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.98it/s]


24


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.10it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.68it/s]


25


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:02<00:00, 14.70it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.56it/s]


26


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:02<00:00, 14.90it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.81it/s]


27


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:02<00:00, 14.79it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.80it/s]


28


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.95it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.55it/s]


29


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.94it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.49it/s]


30


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:02<00:00, 15.10it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.73it/s]


31


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 14.32it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.79it/s]


32


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.85it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.56it/s]


33


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 14.24it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.58it/s]


34


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.21it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.79it/s]


35


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.88it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.50it/s]


36


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:01<00:00, 14.62it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 13.34it/s]


37


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.85it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.52it/s]


38


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:02<00:00, 15.07it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.85it/s]


39


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 14.05it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.65it/s]


40


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.92it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.82it/s]


41


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:02<00:00, 14.90it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.59it/s]


42


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:02<00:00, 15.10it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.77it/s]


43


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.78it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.54it/s]


44


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:02<00:00, 14.94it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.74it/s]


45


100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:01<00:00, 14.59it/s]


46


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.46it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.11it/s]


47


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.07it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 11.58it/s]


48


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 12.07it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 10.67it/s]


49


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.90it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 11.60it/s]


50


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 12.64it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 10.48it/s]


51


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 12.76it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 10.86it/s]


52


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 11.91it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 10.52it/s]


53


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 12.72it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 11.02it/s]


54


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 11.62it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 10.59it/s]


55


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 12.91it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 11.06it/s]


56


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 12.85it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 10.73it/s]


57


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 12.41it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 10.81it/s]


58


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 12.73it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 11.00it/s]


59


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:02<00:00, 14.59it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 11.73it/s]


60


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:01<00:00, 16.60it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 13.39it/s]


61


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:02<00:00, 14.68it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.56it/s]


62


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.72it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.54it/s]


63


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:02<00:00, 14.70it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.63it/s]


64


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.95it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.79it/s]


65


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:02<00:00, 15.08it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.64it/s]


66


100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 11.64it/s]






67


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:02<00:00, 14.64it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.39it/s]


68


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.99it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.80it/s]


69


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 14.25it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.68it/s]


70


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.69it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.58it/s]


71


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:02<00:00, 14.85it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.76it/s]


72


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.93it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.73it/s]


73


100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 13.43it/s]


74


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:02<00:00, 14.96it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.69it/s]


75


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 14.00it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.71it/s]


76


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:02<00:00, 14.92it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.73it/s]


77


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 14.00it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.76it/s]


78


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 14.04it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.62it/s]


79


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:01<00:00, 15.14it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 13.04it/s]


80


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.96it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.72it/s]


81


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.85it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.62it/s]


82


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:02<00:00, 14.98it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.59it/s]


83


100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 13.42it/s]






84


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 14.00it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.76it/s]


85


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.64it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.21it/s]


86


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:01<00:00, 15.03it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 13.00it/s]


87


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.96it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.76it/s]


88


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:01<00:00, 16.84it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:01<00:00, 15.76it/s]


89


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.83it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.62it/s]


90


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 14.06it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.53it/s]


91


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:02<00:00, 15.11it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.85it/s]


92


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.85it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.47it/s]


93


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.85it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.56it/s]


94


 90%|█████████████████████████████████████████████████████████████████████████▌        | 26/29 [00:02<00:00, 14.86it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 12.76it/s]


95


100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 11.82it/s]






96


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 13.09it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 11.61it/s]


97


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 12.76it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 11.14it/s]


98


 97%|███████████████████████████████████████████████████████████████████████████████▏  | 28/29 [00:02<00:00, 12.59it/s]



100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 10.82it/s]


99


100%|██████████████████████████████████████████████████████████████████████████████████| 29/29 [00:02<00:00, 11.47it/s]






In [37]:
pd.DataFrame([pd.DataFrame(model_list).mean(axis=0), pd.DataFrame(model_list).std(axis=0)], index=['mean','std']).T.sort_values(by='mean', ascending=False)

Unnamed: 0_level_0,mean,std
Model,Unnamed: 1_level_1,Unnamed: 2_level_1
RandomForestClassifier,0.73,0.04
ExtraTreesClassifier,0.72,0.05
SVC,0.71,0.04
LGBMClassifier,0.71,0.05
XGBClassifier,0.7,0.04
NearestCentroid,0.7,0.05
NuSVC,0.7,0.04
RidgeClassifierCV,0.7,0.04
BernoulliNB,0.7,0.04
LogisticRegression,0.69,0.04


In [53]:
pd.DataFrame(model_list).mean().sort_values(ascending=False)

Model
RandomForestClassifier          0.72
NuSVC                           0.72
SVC                             0.72
XGBClassifier                   0.71
ExtraTreesClassifier            0.71
LGBMClassifier                  0.71
BernoulliNB                     0.71
RidgeClassifierCV               0.71
BaggingClassifier               0.70
LinearDiscriminantAnalysis      0.70
RidgeClassifier                 0.70
LinearSVC                       0.70
CalibratedClassifierCV          0.70
LogisticRegression              0.70
NearestCentroid                 0.69
AdaBoostClassifier              0.67
GaussianNB                      0.67
SGDClassifier                   0.65
Perceptron                      0.65
DecisionTreeClassifier          0.65
QuadraticDiscriminantAnalysis   0.64
ExtraTreeClassifier             0.64
KNeighborsClassifier            0.62
PassiveAggressiveClassifier     0.62
LabelSpreading                  0.56
LabelPropagation                0.56
DummyClassifier                 

In [42]:
for ml in model_list:
    print(ml.sort_index())

Model
AdaBoostClassifier              0.71
BaggingClassifier               0.64
BernoulliNB                     0.71
CalibratedClassifierCV          0.70
DecisionTreeClassifier          0.64
DummyClassifier                 0.50
ExtraTreeClassifier             0.64
ExtraTreesClassifier            0.78
GaussianNB                      0.72
KNeighborsClassifier            0.64
LGBMClassifier                  0.72
LabelPropagation                0.58
LabelSpreading                  0.58
LinearDiscriminantAnalysis      0.70
LinearSVC                       0.71
LogisticRegression              0.72
NearestCentroid                 0.77
NuSVC                           0.73
PassiveAggressiveClassifier     0.76
Perceptron                      0.73
QuadraticDiscriminantAnalysis   0.71
RandomForestClassifier          0.74
RidgeClassifier                 0.70
RidgeClassifierCV               0.71
SGDClassifier                   0.70
SVC                             0.76
XGBClassifier                   

# Referências
* https://towardsdatascience.com/modeling-teaching-a-machine-learning-algorithm-to-deliver-business-value-ad0205ca4c86
* https://docs.microsoft.com/en-us/windows/ai/windows-ml/what-is-a-machine-learning-model
* https://medium.com/@datadrivenscience/7-stages-of-machine-learning-a-framework-33d39065e2c9
* https://developers.google.com/machine-learning/crash-course/classification/roc-and-auc
* https://towardsdatascience.com/understanding-auc-roc-curve-68b2303cc9c5
* https://medium.com/bio-data-blog/entenda-o-que-%C3%A9-auc-e-roc-nos-modelos-de-machine-learning-8191fb4df772