In [1]:
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))

  from IPython.core.display import display, HTML


In [2]:
%%html
<style type='text/css'>
.CodeMirror{
    font-size: 16px;
}

div.output_area pre {
    font-size: 16px;
}
</style>

# Trenamento do modelos

Neste notebook foram feitos treinamentos de modelos a partir dos dados gerados anteriormente e salvos em arquivos. O processo foi dividido em dus etapas:

- **Etapa 1:**  treinamentos dos modelos manualmente e individualmente para os dados sem nenhuma transformação. O objetivo dest etapa é testar algumas configurações para os jyperparâmetros visando encontrar uma melhor configuração e entender o compartamento dos modelos. nesta etapa pode ser definido os intervalos de hiperparametros para um processo de optimização. Neste trabalho os valores encontrados como optimos foram estabelecidos para os treinamentos com dados alterados
</br>

- **Etapa 2:**  foi feito o treinamento para os dados com alterações.. O treinamento foi feito automaticamente para cada caso por meio de um loop. Na final desta etapa os resultados podem ser comparados


Nesta seção feitos alguns treinamentos de modelos visando obter o que fornace o melhor resultado

Considerei 5 modelos para o estudo () cada modelo foi treinado considerando com as seguintes tranformações nos dados:


OBS: nenhuma transformação é aplicada na variável alvo

Sequência:

- Divide os dados
- Faz uma transformação
- Treina o modelo
- Testa o modelo

In [44]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# transfomações
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import QuantileTransformer
from sklearn.preprocessing import PowerTransformer
from sklearn.preprocessing import Normalizer

#para divisao dos dados
from sklearn.model_selection import train_test_split

# modelos
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn import svm

#metricas
from sklearn import metrics

#para não mostrar mensagens com warnings
import warnings

import time

## Treinamento  dos modelos para dados com transformações

In [42]:
classificadores={'decisionTree':DecisionTreeClassifier(criterion="entropy",
                               max_depth=24,
                               min_samples_split=2,
                               min_samples_leaf=1,
                               min_impurity_decrease=0,
                               random_state=0),
                
                'randomForest':RandomForestClassifier(n_estimators=50,
                             max_depth=24,
                             max_features=5,
                             bootstrap=True,
                             max_samples=None,
                             random_state=0) ,
                 
                 'kNearestNeighbour':KNeighborsClassifier(n_neighbors=50,
                                                        #weights='distance'
                                                        ),
                                                          
                 'rbf_SVM':svm.SVC(kernel="rbf",random_state=0,
                        gamma=2.9,                
                        max_iter=1000,
                        C=0.1),
                                                          
                 'poly3_SVM':svm.SVC(kernel="poly",
                                     degree=5,
                                     random_state=0,
                                     gamma=2.9,                
                                     max_iter=5000,
                                     C=0.5)
                }
                

In [45]:
warnings.filterwarnings("ignore")

path_dados=".//dados//dados_treinamento//"

dict_file={'sem_transformacao':["sem_transformacao"],        #dados sem transformação
           'yeo_johnson': ["transform_yeo_johnson"],    
           'quantile': ["transform_quantile"],          
           'standart':["transform_standadScaler"],      
           'normalization': ["transform_normalizer"],
          }


dict_metricas={}

for key in dict_file.keys():    
    
    print("--- Treinamento com o arquivo: "+dict_file[key][0]+" ---")
    t_ini=time.time()
    
    # carrega os dados
    df=pd.read_csv(path_dados+dict_file[key][0]+".csv")

    
    # variáveis de  treinamento e alvo
    var_train=[var for var in df.columns if var != 'class'] 
    X = df[var_train]#.to_numpy(dtype=np.float32) 
    y = df['class']
    
    
    # divide os dados
    X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.1,
                                                    random_state=0)
    
    
    
    
    #treina os modelos
    metricas_modelo=[]
    for nome_modelo, clf in classificadores.items():    
        
        clf.fit(X_train,y_train)          
        y_hat = clf.predict(X_test)
        
        # resultados
        metricas_modelo= metricas_modelo + [metrics.accuracy_score(y_test, y_hat)]
        
        print(nome_modelo+" treinado!")
        
    
    # armazena os resultados
    dict_metricas[key]=metricas_modelo    
    print("(tempo: "+str(time.time()-t_ini)+" seg.)\n")

--- Treinamento com o arquivo: sem_transformacao ---
decisionTree treinado!
randomForest treinado!
kNearestNeighbour treinado!
rbf_SVM treinado!
poly3_SVM treinado!
(tempo: 8.93824577331543 seg.)

--- Treinamento com o arquivo: transform_yeo_johnson ---
decisionTree treinado!
randomForest treinado!
kNearestNeighbour treinado!
rbf_SVM treinado!
poly3_SVM treinado!
(tempo: 11.598689794540405 seg.)

--- Treinamento com o arquivo: transform_quantile ---
decisionTree treinado!
randomForest treinado!
kNearestNeighbour treinado!
rbf_SVM treinado!
poly3_SVM treinado!
(tempo: 10.540813207626343 seg.)

--- Treinamento com o arquivo: transform_standadScaler ---
decisionTree treinado!
randomForest treinado!
kNearestNeighbour treinado!
rbf_SVM treinado!
poly3_SVM treinado!
(tempo: 11.127559185028076 seg.)

--- Treinamento com o arquivo: transform_normalizer ---
decisionTree treinado!
randomForest treinado!
kNearestNeighbour treinado!
rbf_SVM treinado!
poly3_SVM treinado!
(tempo: 13.422076225280762 

In [16]:
# apresentação dos resultados
df=pd.DataFrame(dict_metricas)
df.index=list(classificadores.keys())
df

Unnamed: 0,sem_transformacao,yeo_johnson,quantile,standart,normalization
decisionTree,0.624378,0.621891,0.620232,0.624378,0.597015
randomForest,0.718905,0.721393,0.719735,0.719735,0.675788
kNearestNeighbour,0.576285,0.598673,0.594527,0.613599,0.58126
rbf_SVM,0.50995,0.538143,0.548093,0.527363,0.328358
poly3_SVM,0.334992,0.386401,0.344942,0.389718,0.538143
