---
# 1) Resumo

Neste notebook foram feitos os treinamentos com 4 seleções de variaveis diferentes, são elas:

* Pela lib featurewiz com 25 variaveis (df_featurewiz_25). [Link para o notebook](https://github.com/HenriqueCCdA/BC_DS_Projeto_Final/blob/main/Notebooks/Selecao_variaveis/selecao_variaveis_featurewiz.ipynb)
* Pela matriz de correlação com 41 variaveis (df_corr_41). [Link para o notebook](https://github.com/HenriqueCCdA/BC_DS_Projeto_Final/blob/main/Notebooks/Selecao_variaveis/selecao_variaveis.ipynb).
* Pela matriz de correlação + RFE com 30 variaveis (df_RFE_30). [Link para o notebook](https://github.com/HenriqueCCdA/BC_DS_Projeto_Final/blob/main/Notebooks/Selecao_variaveis/selecao_variaveis_sklearn.ipynb)
* Pela matriz de correlação + RFE com 20 variaveis (df_RFE_20). [Link para o notebook](https://github.com/HenriqueCCdA/BC_DS_Projeto_Final/blob/main/Notebooks/Selecao_variaveis/selecao_variaveis_sklearn.ipynb)

A busca pelos **hyperparametros** foi feita através do **GridSearchCV** ou pelo **RandomizedSearchCV**. Para a **Cross Validation** foi usado **RepeatedStratifiedKFold** com **5** divisões de **10** repetições. O **RandomizedSearchCV** faz uma busca de **20** tentativas no espaço de **hyperparametros**. Por tanto temos 1000 (5x10x20) treinamentos por modelo..

O parâmetro utilizado para avaliação do modelo foi **ROC_AUC** e quantidade de **falsos negativos** (FN).

Os hyperparamentros seleciona por modelos são os mesmo do [notebook anterior](https://github.com/HenriqueCCdA/BC_DS_Projeto_Final/blob/main/Notebooks/ML/treinamentos_dados1.ipynb). Sendo assim o hyperaramentros são:

* DummyClassifier
    >* strategy : [stratified, most_frequent, prior, uniform]
    
* LogisticRegression
    >* C : [0, 4]
    
* DecisionTreeClassifier
    >* max_depth       : [1-20]
    >* criterion       : [gini, entropy]
    >* min_samples_leaf: [1-5]
    >* max_leaf_nodes  : [2-5]
    
* Random Forest Tree
    >* n_estimators    : [100, 150, 200, 250, 300, 350, 400]
    >* max_depth       : [1, 20]    
    >* criterion       : [gini, entropy]
    >* min_samples_leaf: [1-5]
    >* max_leaf_nodes  : [2-10]
    
* Support Vector Machine
    >* kernel        : [linear, poly, rbf, sigmoid]
    >* C             : [0, 2]
    >* gamma         : [scale, auto]
    >* shrinking     : [True , False]

* KNeighbors
    >* n_neighbors   : [1, 10]
    >* p             : [1, 2]
    >* weights       : [uniform, distance]
    >* algorithm     : [auto, ball_tree, kd_tree, brute]
    
Os hyperparametros podem ser encontrado no arquivo python [aqui](https://github.com/HenriqueCCdA/BC_DS_Projeto_Final/blob/main/src/hyperparametros.py).

OBS: A base de dados com **41** variaveis é a mesma vista no [notebook anterior (Primeiro Treinamento)](https://github.com/HenriqueCCdA/BC_DS_Projeto_Final/blob/main/Notebooks/ML/treinamentos_dados1.ipynb) anterior, os modelo para essa base serão rodados aqui novamente por questão de praticidade.

---
# 2) Pre-analise

---
## 2.1) Minhas Funções

In [1]:
import sys
sys.path.insert(1, "../../")

from src.treinamento import treinamentos

---
## 2.2) Importando libs

In [2]:
import pandas as pd

---
# 3) Treinando modelos 

In [3]:
n_iter   = 20 # numero de iteração do RandomizedSearchCV
n_splits = 5  # Numero de divisões RepeatedStratifiedKFold
n_repeats= 10 # NUmero de repitões que RepeatedStratifiedKFold faz a difisão
seed     = 1471523

---
## 3.1) Seleção pelo featurewiz

Feito neste [notebook](https://github.com/HenriqueCCdA/BC_DS_Projeto_Final/blob/10acc58f00f060385488c782c9ae2d2e6d404c08/Notebooks/Selecao_variaveis/selecao_variaveis_featurewiz.ipynb)

In [5]:
url = 'https://raw.githubusercontent.com/HenriqueCCdA/BC_DS_Projeto_Final/main/Dados/Tratados/dados_featurewiz.csv'
#url = '../../Dados/Tratados/dados_featurewiz.csv'
df_featurewiz_val, df_featurewiz_cv= treinamentos(path = url, 
                                     n_iter=n_iter, 
                                     n_splits=n_splits, 
                                     n_repeats=n_repeats,
                                     seed=seed)

Numero de linhas : 351 
Numero de colunas: 26 
Número total de entradas                         : 351
Número total de entradas para validacao          : 36
Número total de entradas para o Cross Validation : 315
Treinamento DummyClassifier
Fitting 50 folds for each of 4 candidates, totalling 200 fits
Treinamento LogisticRegression
Fitting 50 folds for each of 20 candidates, totalling 1000 fits
melhores hyperparametros : {'C': 1.2175467357414327}
Melhor modelo            : LogisticRegression(C=1.2175467357414327, max_iter=1000, tol=1e-06)
Treinamento DecisionTreeClassifier
Fitting 50 folds for each of 20 candidates, totalling 1000 fits
melhores hyperparametros : {'min_samples_leaf': 4, 'max_leaf_nodes': 5, 'max_depth': 19, 'criterion': 'entropy'}
Melhor modelo            : DecisionTreeClassifier(criterion='entropy', max_depth=19, max_leaf_nodes=5,
                       min_samples_leaf=4)
Treinamento RandomForestClassifier
Fitting 50 folds for each of 20 candidates, totalling 1000 fits


---
## 3.2) Seleção pela matriz de correlação 

Feito neste [notebook](https://github.com/HenriqueCCdA/BC_DS_Projeto_Final/blob/10acc58f00f060385488c782c9ae2d2e6d404c08/Notebooks/Selecao_variaveis/selecao_variaveis.ipynb).

In [6]:
url = 'https://raw.githubusercontent.com/HenriqueCCdA/BC_DS_Projeto_Final/main/Dados/Tratados/dados_sem_corr_acima_do_valor_de_corte.csv'
#url = '../../Dados/Tratados/dados_sem_corr_acima_do_valor_de_corte.csv'
df_corr_val, df_corr_cv = treinamentos(path=url,
                                       n_iter=n_iter, 
                                       n_splits=n_splits, 
                                       n_repeats=n_repeats,
                                       seed=seed)

Numero de linhas : 351 
Numero de colunas: 42 
Número total de entradas                         : 351
Número total de entradas para validacao          : 36
Número total de entradas para o Cross Validation : 315
Treinamento DummyClassifier
Fitting 50 folds for each of 4 candidates, totalling 200 fits
Treinamento LogisticRegression
Fitting 50 folds for each of 20 candidates, totalling 1000 fits
melhores hyperparametros : {'C': 1.0804892609644945}
Melhor modelo            : LogisticRegression(C=1.0804892609644945, max_iter=1000, tol=1e-06)
Treinamento DecisionTreeClassifier
Fitting 50 folds for each of 20 candidates, totalling 1000 fits
melhores hyperparametros : {'min_samples_leaf': 5, 'max_leaf_nodes': 5, 'max_depth': 8, 'criterion': 'gini'}
Melhor modelo            : DecisionTreeClassifier(max_depth=8, max_leaf_nodes=5, min_samples_leaf=5)
Treinamento RandomForestClassifier
Fitting 50 folds for each of 20 candidates, totalling 1000 fits
melhores hyperparametros : {'n_estimators': 200, 

---
## 3.3) Seleção pela matriz de correlação e RFE

Feito neste [notebook](https://github.com/HenriqueCCdA/BC_DS_Projeto_Final/blob/10acc58f00f060385488c782c9ae2d2e6d404c08/Notebooks/Selecao_variaveis/selecao_variaveis_sklearn.ipynb)

* Base com **30** variaveis explicativas

In [7]:
url = 'https://raw.githubusercontent.com/HenriqueCCdA/BC_DS_Projeto_Final/main/Dados/Tratados/dados_rfe30.csv'
#url = '../../Dados/Tratados/dados_rfe30.csv'
df_rfe30_val, df_rfe30_cv = treinamentos(path=url,
                                          n_iter=n_iter, 
                                          n_splits=n_splits, 
                                          n_repeats=n_repeats,
                                          seed=seed)

Numero de linhas : 351 
Numero de colunas: 31 
Número total de entradas                         : 351
Número total de entradas para validacao          : 36
Número total de entradas para o Cross Validation : 315
Treinamento DummyClassifier
Fitting 50 folds for each of 4 candidates, totalling 200 fits
Treinamento LogisticRegression
Fitting 50 folds for each of 20 candidates, totalling 1000 fits
melhores hyperparametros : {'C': 1.1624762277002425}
Melhor modelo            : LogisticRegression(C=1.1624762277002425, max_iter=1000, tol=1e-06)
Treinamento DecisionTreeClassifier
Fitting 50 folds for each of 20 candidates, totalling 1000 fits
melhores hyperparametros : {'min_samples_leaf': 5, 'max_leaf_nodes': 5, 'max_depth': 8, 'criterion': 'gini'}
Melhor modelo            : DecisionTreeClassifier(max_depth=8, max_leaf_nodes=5, min_samples_leaf=5)
Treinamento RandomForestClassifier
Fitting 50 folds for each of 20 candidates, totalling 1000 fits
melhores hyperparametros : {'n_estimators': 250, 

* Base com **20** variaveis explicativas

In [8]:
url = 'https://raw.githubusercontent.com/HenriqueCCdA/BC_DS_Projeto_Final/main/Dados/Tratados/dados_rfe20.csv'
#url = '../../Dados/Tratados/dados_rfe20.csv'
df_rfe20_val, df_rfe20_cv = treinamentos(path='../../Dados/Tratados/dados_rfe20.csv',
                                         n_iter=n_iter, 
                                         n_splits=n_splits, 
                                         n_repeats=n_repeats,
                                         seed=seed)

Numero de linhas : 351 
Numero de colunas: 21 
Número total de entradas                         : 351
Número total de entradas para validacao          : 36
Número total de entradas para o Cross Validation : 315
Treinamento DummyClassifier
Fitting 50 folds for each of 4 candidates, totalling 200 fits
Treinamento LogisticRegression
Fitting 50 folds for each of 20 candidates, totalling 1000 fits
melhores hyperparametros : {'C': 3.074614967936442}
Melhor modelo            : LogisticRegression(C=3.074614967936442, max_iter=1000, tol=1e-06)
Treinamento DecisionTreeClassifier
Fitting 50 folds for each of 20 candidates, totalling 1000 fits
melhores hyperparametros : {'min_samples_leaf': 5, 'max_leaf_nodes': 5, 'max_depth': 8, 'criterion': 'gini'}
Melhor modelo            : DecisionTreeClassifier(max_depth=8, max_leaf_nodes=5, min_samples_leaf=5)
Treinamento RandomForestClassifier
Fitting 50 folds for each of 20 candidates, totalling 1000 fits
melhores hyperparametros : {'n_estimators': 250, 'm

# 4) Resultados

* Resultado no DataSet de validação

In [9]:
resultados = pd.concat([ df_featurewiz_val, df_corr_val,  df_rfe30_val, df_rfe20_val],
                         keys={ 'Featurewiz_25' : df_featurewiz_val,
                                'Corr_41'       : df_corr_val,                                
                                'RFE_30'        : df_rfe30_val,
                                'RFE_20'        : df_rfe20_val,
                               }
                       )
resultados

Unnamed: 0,Unnamed: 1,Name,tn,fp,fn,tp,AUC
Featurewiz_25,0,RandomForestClassifier,13,6,6,11,0.839009
Featurewiz_25,1,KNeighborsClassifier,16,3,8,9,0.74613
Featurewiz_25,2,SVC,13,6,5,12,0.743034
Featurewiz_25,3,DecisionTreeClassifier,9,10,2,15,0.736842
Featurewiz_25,4,LogisticRegression,14,5,7,10,0.718266
Featurewiz_25,5,DummyClassifier,10,9,7,10,0.577399
Corr_41,0,RandomForestClassifier,12,7,5,12,0.783282
Corr_41,1,DecisionTreeClassifier,9,10,2,15,0.736842
Corr_41,2,SVC,12,7,6,11,0.733746
Corr_41,3,KNeighborsClassifier,16,3,10,7,0.69969


> **Tabela 4.1)** A acima temos os resultados do DataSet de validação para diferences seleções de variaveis explicativas. O melhor modelo foi sempre o **RandomForestClassifier**. A melhor seleção de variaveis explicativas foi o da lib **Featurewiz_25**.  

* Resultado no **Cross Validation**

In [12]:
resultados = pd.concat([ df_featurewiz_cv, df_corr_cv, df_rfe30_cv, df_rfe20_cv],
                         keys={ 'Featurewiz_25' : df_featurewiz_cv, 
                                'Corr_41'     : df_corr_cv,
                                'RFE_30'        : df_rfe30_cv,
                                'RFE_20'        : df_rfe20_cv
                               }
                       )
resultados

Unnamed: 0,Unnamed: 1,media,std
Featurewiz_25,RandomForestClassifier,0.817505,0.049075
Featurewiz_25,LogisticRegression,0.801886,0.050124
Featurewiz_25,SVC,0.799351,0.050576
Featurewiz_25,KNeighborsClassifier,0.769371,0.058287
Featurewiz_25,DecisionTreeClassifier,0.691379,0.057426
Corr_41,RandomForestClassifier,0.812089,0.049321
Corr_41,LogisticRegression,0.801785,0.050145
Corr_41,SVC,0.80142,0.051126
Corr_41,KNeighborsClassifier,0.754148,0.060246
Corr_41,DecisionTreeClassifier,0.693509,0.068885


> **Tabela 4.2)** A acima temos os resultados da etapa de Cross Validation para diferences seleções de variaveis explicativas. O melhor modelo foi sempre o **RandomForestClassifier**, exeto na bese RFE_20 onde LogisticRegression foi o melhor, porém nessa base há praticamente um empate entre 3 modelos: **LogisticRegression**, **RandomForestClassifier** e **SVC**. A melhor seleção de variaveis explicativas novamente foi o da lib **featurewiz**. 

---
# 5) Conclusão

Aqui foi reforçado que **RandomForestClassifier** é o melhor modelo. Além disso agora sabemos que a melhor seleção de variaveis explicativa foi a obitida pela lib **featurewiz**. 

Considerando o **RandomForestClassifier** os melhores hyperparametros para bases foram:

>* Base df_featurewiz_25:
>   * n_estimators: 400,
>   * min_samples_leaf: 4, 
>   * max_leaf_nodes: 10, 
>   * max_depth: 7, 
>   * criterion: 'entropy

>* Base df_corr_41:
>   * n_estimators: 200,
>   * min_samples_leaf: 1, 
>   * max_leaf_nodes: 9, 
>   * max_depth: 14, 
>   * criterion: 'gini

>* Base df_RFE_30:
>   * n_estimators: 250,
>   * min_samples_leaf: 2, 
>   * max_leaf_nodes: 10, 
>   * max_depth: 18, 
>   * criterion: 'gini

>* Base df_RFE_20:
>   * n_estimators: 250,
>   * min_samples_leaf: 2, 
>   * max_leaf_nodes: 10, 
>   * max_depth: 18, 
>   * criterion: 'gini

Assim a melhor opção é usar **RandomForestClassifier** com a **df_featurewiz_25**. No próximo [notebook](https://github.com/HenriqueCCdA/BC_DS_Projeto_Final/blob/main/Notebooks/ML/Treinamento_modelo_final.ipynb) irá treinar o **RandomForestClassifier** utilizando toda a base de dados para obter o modelo final de **ML**.

---
Navegação:

---

[Voltar para o Notebook anterior(Primeiro Treinamento)](https://github.com/HenriqueCCdA/BC_DS_Projeto_Final/blob/main/Notebooks/ML/treinamentos_dados1.ipynb)

[Ir para o proximo notebook(Treinamento do modelo final)](https://github.com/HenriqueCCdA/BC_DS_Projeto_Final/blob/main/Notebooks/ML/Treinamento_modelo_final.ipynb)

---

[Retornar para README principal](https://github.com/HenriqueCCdA/BC_DS_Projeto_Final)

---