---
# 1) Resumo

Neste notebook foram feitos os treinamentos com 4 seleções de variaveis diferentes, são elas:

* Pela lib featurewiz com 25 variaveis (df_featurewiz_25) [LINK]
* Pela matriz de correlação com 41 variaveis (df_corr_41) [LINK]
* Pela matriz de correlação + RFE com 30 variaveis (df_RFE_30) [link]
* Pela matriz de correlação + RFE com 20 variaveis (df_RFE_20) [link]

A busca pelos hyperparametros foram feitas pelo GridSearchCV ou pelo RandomizedSearchCV. Para a Cross Validation foi usado **RepeatedStratifiedKFold** com **5** divições de **10** repetições. Quando RandomizedSearchCV foi utilizado foi feita uma busca de **20** tentativas do espaço de **hyperparametros**. Por tanto ao total temos **1000** (5x10x20) treinamentos por modelo.

O parametro utilizado para avaliação do modelo foi **ROC_AUC** e quantidade de **falsos negativos** (FN).

Os hyperparamentros seleciona por modelos são os mesmo do notebook anterior [treinamento_dados]. Sendo assim o hyperaramentros são:

* DummyClassifier
    >* strategy : [stratified, most_frequent, prior, uniform]
    
* LogisticRegression
    >* C : [0, 4]
    
* DecisionTreeClassifier
    >* max_depth       : [1-20]
    >* criterion       : [gini, entropy]
    >* min_samples_leaf: [1-5]
    >* max_leaf_nodes  : [2-5]
    
* Forest Tree
    >* n_estimators    : [100, 150, 200, 250, 300, 350, 400]
    >* max_depth       : [1, 20]    
    >* criterion       : [gini, entropy]
    >* min_samples_leaf: [1-5]
    >* max_leaf_nodes  : [2-10]
    
* Support Vector Machine
    >* kernel        : [linear, poly, rbf, sigmoid]
    >* C             : [0, 2]
    >* gamma         : [scale, auto]
    >* shrinking     : [True , False]

* KNeighbors
    >* n_neighbors   : [1, 10]
    >* p             : [1, 2]
    >* weights       : [uniform, distance]
    >* algorithm     : [auto, ball_tree, kd_tree, brute]
    
Os hyperparametros podem ser encontrado no arquivo python [LINK]

OBS: A base de dados com 41 variaveis é a mesma vista no anterior [treinamento_dados], os modelo para essa base serão rodados aqui novamente por questão de praticidade.

---
# 2) Pre-analise

---
## 2.1) Minhas Funções

In [30]:
import sys
sys.path.insert(1, "../../")

from src.treinamento import treinamentos

---
## 2.2) Importando libs

In [31]:
import pandas as pd

---
# 3) Treinando modelos 

In [36]:
n_iter   = 10 # numero de iteração do RandomizedSearchCV
n_splits = 5  # Numero de divisões RepeatedStratifiedKFold
n_repeats= 10 # NUmero de repitões que RepeatedStratifiedKFold faz a difisão
seed     = 1471523

---
## 3.1) Seleção pelo featurewiz

Feito no notebook: [Link]

In [37]:
df_featurewiz_val, df_featurewiz_cv= treinamentos(path = '../../Dados/Tratados/dados_featurewiz.csv', 
                                     n_iter=n_iter, 
                                     n_splits=n_splits, 
                                     n_repeats=m_repeats,
                                     seed=seed)

Numero de linhas : 351 
Numero de colunas: 26 
Número total de entradas                         : 351
Número total de entradas para validacao          : 36
Número total de entradas para o Cross Validation : 315
Treinamento DummyClassifier
Fitting 25 folds for each of 4 candidates, totalling 100 fits
Treinamento LogisticRegression
Fitting 25 folds for each of 10 candidates, totalling 250 fits
melhores hyperparametros : {'C': 1.2175467357414327}
Melhor modelo            : LogisticRegression(C=1.2175467357414327, max_iter=1000, tol=1e-06)
Treinamento DecisionTreeClassifier
Fitting 25 folds for each of 10 candidates, totalling 250 fits
melhores hyperparametros : {'min_samples_leaf': 4, 'max_leaf_nodes': 5, 'max_depth': 19, 'criterion': 'entropy'}
Melhor modelo            : DecisionTreeClassifier(criterion='entropy', max_depth=19, max_leaf_nodes=5,
                       min_samples_leaf=4)
Treinamento RandomForestClassifier
Fitting 25 folds for each of 10 candidates, totalling 250 fits
mel

---
## 3.2) Seleção pela matriz de correlação 

Feito no notebook: [Link]

In [38]:
df_corr_val, df_corr_cv = treinamentos(path='../../Dados/Tratados/dados_sem_corr_acima_do_valor_de_corte.csv',
                                       n_iter=n_iter, 
                                       n_splits=n_splits, 
                                       n_repeats=m_repeats,
                                       seed=seed)

Numero de linhas : 351 
Numero de colunas: 42 
Número total de entradas                         : 351
Número total de entradas para validacao          : 36
Número total de entradas para o Cross Validation : 315
Treinamento DummyClassifier
Fitting 25 folds for each of 4 candidates, totalling 100 fits
Treinamento LogisticRegression
Fitting 25 folds for each of 10 candidates, totalling 250 fits
melhores hyperparametros : {'C': 2.0987409147362146}
Melhor modelo            : LogisticRegression(C=2.0987409147362146, max_iter=1000, tol=1e-06)
Treinamento DecisionTreeClassifier
Fitting 25 folds for each of 10 candidates, totalling 250 fits
melhores hyperparametros : {'min_samples_leaf': 5, 'max_leaf_nodes': 5, 'max_depth': 8, 'criterion': 'gini'}
Melhor modelo            : DecisionTreeClassifier(max_depth=8, max_leaf_nodes=5, min_samples_leaf=5)
Treinamento RandomForestClassifier
Fitting 25 folds for each of 10 candidates, totalling 250 fits
melhores hyperparametros : {'n_estimators': 300, 'mi

---
## 3.3) Seleção pela matriz de correlação e RFE

Feito no notebook: [Link]

* Base com **30** variaveis explicativas

In [39]:
df_rfe30_val, df_rfe30_cv = treinamentos(path='../../Dados/Tratados/dados_rfe30.csv',
                                          n_iter=n_iter, 
                                          n_splits=n_splits, 
                                          n_repeats=m_repeats,
                                          seed=seed)

Numero de linhas : 351 
Numero de colunas: 31 
Número total de entradas                         : 351
Número total de entradas para validacao          : 36
Número total de entradas para o Cross Validation : 315
Treinamento DummyClassifier
Fitting 25 folds for each of 4 candidates, totalling 100 fits
Treinamento LogisticRegression
Fitting 25 folds for each of 10 candidates, totalling 250 fits
melhores hyperparametros : {'C': 1.2175467357414327}
Melhor modelo            : LogisticRegression(C=1.2175467357414327, max_iter=1000, tol=1e-06)
Treinamento DecisionTreeClassifier
Fitting 25 folds for each of 10 candidates, totalling 250 fits
melhores hyperparametros : {'min_samples_leaf': 5, 'max_leaf_nodes': 5, 'max_depth': 8, 'criterion': 'gini'}
Melhor modelo            : DecisionTreeClassifier(max_depth=8, max_leaf_nodes=5, min_samples_leaf=5)
Treinamento RandomForestClassifier
Fitting 25 folds for each of 10 candidates, totalling 250 fits
melhores hyperparametros : {'n_estimators': 400, 'mi

* Base com **20** variaveis explicativas

In [40]:
df_rfe20_val, df_rfe20_cv = treinamentos(path='../../Dados/Tratados/dados_rfe20.csv',
                                         n_iter=n_iter, 
                                         n_splits=n_splits, 
                                         n_repeats=m_repeats,
                                         seed=seed)

Numero de linhas : 351 
Numero de colunas: 21 
Número total de entradas                         : 351
Número total de entradas para validacao          : 36
Número total de entradas para o Cross Validation : 315
Treinamento DummyClassifier
Fitting 25 folds for each of 4 candidates, totalling 100 fits
Treinamento LogisticRegression
Fitting 25 folds for each of 10 candidates, totalling 250 fits
melhores hyperparametros : {'C': 2.6829570907064726}
Melhor modelo            : LogisticRegression(C=2.6829570907064726, max_iter=1000, tol=1e-06)
Treinamento DecisionTreeClassifier
Fitting 25 folds for each of 10 candidates, totalling 250 fits
melhores hyperparametros : {'min_samples_leaf': 5, 'max_leaf_nodes': 5, 'max_depth': 8, 'criterion': 'gini'}
Melhor modelo            : DecisionTreeClassifier(max_depth=8, max_leaf_nodes=5, min_samples_leaf=5)
Treinamento RandomForestClassifier
Fitting 25 folds for each of 10 candidates, totalling 250 fits
melhores hyperparametros : {'n_estimators': 400, 'mi

# 4) Resultados

* Resultado no DataSet de validação

In [41]:
resultados = pd.concat([ df_featurewiz_val, df_corr_val,  df_rfe30_val, df_rfe20_val],
                         keys={ 'Featurewiz_25' : df_featurewiz_val,
                                'Corr_41'       : df_corr_val,                                
                                'RFE_30'        : df_rfe30_val,
                                'RFE_20'        : df_rfe20_val,
                               }
                       )
resultados

Unnamed: 0,Unnamed: 1,Name,tn,fp,fn,tp,AUC
Featurewiz_25,0,RandomForestClassifier,13,6,6,11,0.835913
Featurewiz_25,1,KNeighborsClassifier,16,3,7,10,0.775542
Featurewiz_25,2,DecisionTreeClassifier,9,10,2,15,0.736842
Featurewiz_25,3,LogisticRegression,14,5,7,10,0.718266
Featurewiz_25,4,SVC,13,6,9,8,0.684211
Featurewiz_25,5,DummyClassifier,10,9,7,10,0.577399
Corr_41,0,RandomForestClassifier,13,6,5,12,0.801858
Corr_41,1,DecisionTreeClassifier,9,10,2,15,0.736842
Corr_41,2,SVC,12,7,6,11,0.718266
Corr_41,3,KNeighborsClassifier,16,3,10,7,0.69969


> **Tabela 4.1)** A acima temos os resultados do DataSet de validação para diferences seleções de variaveis explicativas. O melhor modelo foi sempre o **RandomForestClassifier**. A melhor seleção de variaveis explicativas foi o da lib **Featurewiz_25**.  

* Resultado no **Cross Validation**

In [42]:
resultados = pd.concat([ df_featurewiz_cv, df_corr_cv, df_rfe30_cv, df_ref20_cv],
                         keys={ 'Featurewiz_25' : df_featurewiz_cv, 
                                'Corr_41'     : df_corr_cv,
                                'RFE_30'        : df_rfe30_cv,
                                'RFE_20'        : df_ref20_cv
                               }
                       )
resultados

Unnamed: 0,Unnamed: 1,media,std
Featurewiz_25,RandomForestClassifier,0.817647,0.061443
Featurewiz_25,LogisticRegression,0.80146,0.046367
Featurewiz_25,SVC,0.796024,0.054394
Featurewiz_25,KNeighborsClassifier,0.763793,0.054224
Featurewiz_25,DecisionTreeClassifier,0.680325,0.05775
Corr_41,RandomForestClassifier,0.80787,0.057422
Corr_41,LogisticRegression,0.804341,0.052907
Corr_41,SVC,0.791724,0.051575
Corr_41,KNeighborsClassifier,0.755416,0.047467
Corr_41,DecisionTreeClassifier,0.686998,0.073453


> **Tabela 4.2)** A acima temos os resultados da etapa de Cross Validation para diferences seleções de variaveis explicativas. O melhor modelo foi sempre o **RandomForestClassifier**, exeto na bese RFE_20 onde LogisticRegression foi o melhor, porém nessa base há praticamente um empate entre 3 modelos: **LogisticRegression**, **RandomForestClassifier** e **SVC**. A melhor seleção de variaveis explicativas novamente foi o da lib **featurewiz**. 

---
# 5) Conclusão

Agora foi reforçado que **RandomForestClassifier** é o melhor modelo. Além disso agora sabemos que a melhor seleção de variaveis explicativa foi a obitida pelo pela lib **featurewiz**. 

Cosiderando o **RandomForestClassifier** os melhores hyperparametros para bases foram:

>* Base df_featurewiz_25:
>   * n_estimators: 300,
>   * min_samples_leaf: 2, 
>   * max_leaf_nodes: 5, 
>   * max_depth: 17, 
>   * criterion: 'gini

>* Base df_corr_41:
>   * n_estimators: 300,
>   * min_samples_leaf: 2, 
>   * max_leaf_nodes: 5, 
>   * max_depth: 17, 
>   * criterion: 'gini

>* Base df_RFE_30:
>   * n_estimators: 400,
>   * min_samples_leaf: 2, 
>   * max_leaf_nodes: 5, 
>   * max_depth: 12, 
>   * criterion: 'gini

>* Base df_RFE_30:
>   * n_estimators: 400,
>   * min_samples_leaf: 2, 
>   * max_leaf_nodes: 5, 
>   * max_depth: 12, 
>   * criterion: 'gini

Assim a melhor opção é usar **RandomForestClassifier** com a **df_featurewiz_25 **. O próximo notebook agora irá radar