In [1]:
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))

  from IPython.core.display import display, HTML


In [2]:
%%html
<style type='text/css'>
.CodeMirror{
    font-size: 16px;
}

div.output_area pre {
    font-size: 16px;
}
</style>

# Trenamento do modelos

Neste notebook foram feitos treinamentos de modelos a partir dos dados gerados anteriormente e salvos em arquivos. O processo foi dividido em dus etapas:

- **Etapa 1:**  treinamentos dos modelos manualmente e individualmente para os dados sem nenhuma transformação. O objetivo dest etapa é testar algumas configurações para os jyperparâmetros visando encontrar uma melhor configuração e entender o compartamento dos modelos. nesta etapa pode ser definido os intervalos de hiperparametros para um processo de optimização. Neste trabalho os valores encontrados como optimos foram estabelecidos para os treinamentos com dados alterados
</br>

- **Etapa 3:**  foi feito o treinamento para os dados com alterações.. O treinamento foi feito automaticamente para cada caso por meio de um loop. Na final desta etapa os resultados podem ser comparados


In [15]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# para a divisão dos dados
from sklearn.model_selection import train_test_split

# modelos
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn import svm
from sklearn import metrics

#para não mostrar mensagens com warnings
import warnings

In [5]:
#leitura dos dados
df=pd.read_csv("transform_semTransf.csv")

#variaveis de treinamento e alvo
var_train=[var for var in df.columns if var != 'class'] 

X = df[var_train].values 
y = df['class']

#Divide os dados
X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.1,
                                                    random_state=0)
X_train.shape, y_train.shape,

((9762, 11), (9762,))

## Etapa 1: Treinamento dos modelos individualmente para os dados sem tranformações

In [6]:
#Decision tree
model = DecisionTreeClassifier(criterion="entropy",
                               max_depth=24,
                               min_samples_split=2,
                               min_samples_leaf=1,
                               min_impurity_decrease=0,
                               random_state=0)
                               
model = model.fit(X_train,y_train)

#previsão
y_hat = model.predict(X_test)

#alguns valores
print('Valores previstos: ', y_hat[0:10])
print('Valores reais: ', y_test[0:10].to_list())
print("Acuracia(métrica):", metrics.accuracy_score(y_test, y_hat))

Valores previstos:  [1 3 2 1 3 0 1 3 3 0]
Valores reais:  [1, 2, 2, 0, 3, 0, 1, 1, 3, 0]
Acuracia(métrica): 0.6433179723502304


In [7]:
#Random forest
model = RandomForestClassifier(n_estimators=50,
                             max_depth=24,
                             max_features=5,
                             bootstrap=True,
                             max_samples=None,
                             random_state=0)
model = model.fit(X_train,y_train)


#previsão
y_hat = model.predict(X_test)

print('Valores previstos: ', y_hat[0:10])
print('Valores reais: ', y_test[0:10].to_list())
print("Acuracia:", metrics.accuracy_score(y_test, y_hat))

Valores previstos:  [1 2 2 0 3 0 1 1 3 0]
Valores reais:  [1, 2, 2, 0, 3, 0, 1, 1, 3, 0]
Acuracia: 0.7308755760368664


In [8]:
#k nearest neighbour
model = KNeighborsClassifier(n_neighbors=50,
                            #weights='distance'
                            )    
model.fit(X_train,y_train)

#previsão
y_hat = model.predict(X_test)

print('Valores previstos: ', y_hat[0:10])
print('Valores reais: ', y_test[0:10].to_list())
print("Acuracia:", metrics.accuracy_score(y_test, y_hat))

Valores previstos:  [1 0 2 1 2 0 1 1 3 0]
Valores reais:  [1, 2, 2, 0, 3, 0, 1, 1, 3, 0]
Acuracia: 0.5806451612903226


In [9]:
#SVM com kernel polinomial
model = svm.SVC(kernel="poly",degree=5,random_state=0,
                gamma=2.9,                
                max_iter=5000,
                C=0.5)
model.fit(X_train,y_train)

#previsão
y_hat = model.predict(X_test)

print('Valores previstos: ', y_hat[0:10])
print('Valores reais: ', y_test[0:10].to_list())
print("Acuracia:", metrics.accuracy_score(y_test, y_hat))

Valores previstos:  [0 1 0 0 1 0 0 0 2 0]
Valores reais:  [1, 2, 2, 0, 3, 0, 1, 1, 3, 0]
Acuracia: 0.34470046082949307




In [10]:
# SVM com kernel rbf
model = svm.SVC(kernel="rbf",random_state=0,
                gamma=2.9,                
                max_iter=3000,
                C=0.1)
model.fit(X_train,y_train)

#previsão
y_hat = model.predict(X_test)

print('Valores previstos: ', y_hat[0:10])
print('Valores reais: ', y_test[0:10].to_list())
print("Acuracia:", metrics.accuracy_score(y_test, y_hat))



Valores previstos:  [0 0 0 0 0 0 0 0 0 0]
Valores reais:  [1, 2, 2, 0, 3, 0, 1, 1, 3, 0]
Acuracia: 0.22580645161290322


## Etapa 2: treinamento  dos modelos para dados com transformações

In [2]:
classificadores={'decisionTree':DecisionTreeClassifier(criterion="entropy",
                               max_depth=24,
                               min_samples_split=2,
                               min_samples_leaf=1,
                               min_impurity_decrease=0,
                               random_state=0) ,
                 
                 'randomForest':RandomForestClassifier(n_estimators=50,
                             max_depth=24,
                             max_features=5,
                             bootstrap=True,
                             max_samples=None,
                             random_state=0) ,
                 
                 'kNearestNeighbour':KNeighborsClassifier(n_neighbors=50,
                                                        #weights='distance'
                                                        ),
                                                          
                 'rbf_SVM':svm.SVC(kernel="rbf",random_state=0,
                        gamma=2.9,                
                        max_iter=1000,
                        C=0.1),
                                                          
                 'poly3_SVM':svm.SVC(kernel="poly",
                                     degree=5,
                                     random_state=0,
                                     gamma=2.9,                
                                     max_iter=5000,
                                     C=0.5)
                }

NameError: name 'DecisionTreeClassifier' is not defined

In [22]:
warnings.filterwarnings("ignore")

listFile=["transform_semTransf",
          "transform_yeo_johnson",
          "transform_quantile",
          "transform_StandadScaler",
          "transform_normalization"
         ]

for nomeArqui in listFile:
    
    #abre o arquivo
    df=pd.read_csv(nomeArqui+".csv")

    #variaveis de treinamento e alvo
    var_train=[var for var in df.columns if var != 'class'] 
    X = df[var_train].values 
    y = df['class']

    #Divide os dados
    X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.1,
                                                    random_state=0)
    #imprime o nome de transformação
    print("Tranformacao: ", nomeArqui)
    
    #treina os modelos
    for nome_modelo, clf in classificadores.items():
    
        #fita o modelo
        clf.fit(X_train,y_train)  

        #preve com o modelo fitado
        y_hat = clf.predict(X_test)
    
        print("(Acuracia) "+nome_modelo+": ", metrics.accuracy_score(y_test, y_hat))
    
    print()

Tranformacao:  transform_semTransf
(Acuracia) decisionTree:  0.6433179723502304
(Acuracia) randomForest:  0.7308755760368664
(Acuracia) kNearestNeighbour:  0.5806451612903226
(Acuracia) rbf_SVM:  0.4046082949308756
(Acuracia) poly3_SVM:  0.34470046082949307

Tranformacao:  transform_yeo_johnson
(Acuracia) decisionTree:  0.6470046082949309
(Acuracia) randomForest:  0.7290322580645161
(Acuracia) kNearestNeighbour:  0.5963133640552996
(Acuracia) rbf_SVM:  0.5225806451612903
(Acuracia) poly3_SVM:  0.40829493087557606

Tranformacao:  transform_quantile
(Acuracia) decisionTree:  0.6451612903225806
(Acuracia) randomForest:  0.7308755760368664
(Acuracia) kNearestNeighbour:  0.5880184331797235
(Acuracia) rbf_SVM:  0.5050691244239631
(Acuracia) poly3_SVM:  0.39631336405529954

Tranformacao:  transform_StandadScaler
(Acuracia) decisionTree:  0.6470046082949309
(Acuracia) randomForest:  0.7262672811059908
(Acuracia) kNearestNeighbour:  0.6110599078341014
(Acuracia) rbf_SVM:  0.5216589861751152
(Ac