# Gridsearch

Vamos usar um dos datasets gerados para fazer um gridsearch com alguns classificadores. 

O dataset que será utilizado conta com 1 usuário conectado, 256 antenas e 128 símbolos na sequência piloto. 

Features: snr, E, eta, a1, a2 e a3. Target: se tem ou não contaminação.

### Importações

In [1]:
import pandas as pd
import numpy as np
from IPython.display import display, clear_output
from sklearn.utils import shuffle
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.linear_model import Perceptron, SGDClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neural_network import MLPClassifier

### Abrindo o Banco de Dados

In [2]:
# ABRO O CSV
caminhoCSV = "../../CSV/dataset_4usuarios_64antenas_8simbolos_1599161657.8460925.csv"
datasetCSV = pd.read_csv(caminhoCSV)

# SEPARANDO DATA E TARGET E DANDO UM SHUFFLEZINHO
data         = datasetCSV[datasetCSV.columns[:-2]].to_numpy()
target       = datasetCSV[datasetCSV.columns[-1]].to_numpy()
data, target = shuffle(data, target)

### Parâmetros Inicias

In [3]:
# VAMOS FAZER UM KFOLD COM qtdFolds PASTAS
qtdFolds = 5

# O GRIDSEARCH VAI TENTAR MELHORAR QUAL METRICA?
avaliarComBaseEm = 'accuracy' # outras: 'accuracy', 'f1', ‘precision’... -> https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter

# QUANTOS NUCLEOS VAMOS USAR?
nJobs = -1

# MATRIZ DE RESULTADOS: vou fazer uma tabela pra guardar os resultados, cada linha um classificador. As colunas vão ser: classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo
tabelaResultados = []

### Random Forest

In [4]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "RF"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'n_estimators': [1, 10, 50],
    'criterion': ['gini', 'entropy'],
    'min_samples_split': [2,4,6],
    'min_samples_leaf': [1,2,3],
    'max_features': [None, 'sqrt', 'log2']
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(RandomForestClassifier(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['RF',
 0.9541176470588235,
 0.003016677977637187,
 0.08807477951049805,
 0.08433362367408113,
 RandomForestClassifier(criterion='entropy', max_features='sqrt',
                        min_samples_leaf=2, min_samples_split=6,
                        n_estimators=50)]

### LDA

In [5]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "LDA"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'solver': ['svd', 'lsqr', 'eigen'],
    'tol': [1e-5, 1e-4, 1e-3]
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(LinearDiscriminantAnalysis(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['LDA',
 0.8924705882352942,
 0.006410415400388379,
 0.006935214996337891,
 0.01120006211047065,
 LinearDiscriminantAnalysis(tol=1e-05)]

### QDA

In [6]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "QDA"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'tol': [1e-6, 1e-5, 1e-4, 1e-3, 1e-2]
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(QuadraticDiscriminantAnalysis(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['QDA',
 0.9269411764705883,
 0.0027439773622801524,
 0.008726263046264648,
 0.0042809874807481114,
 QuadraticDiscriminantAnalysis(tol=1e-06)]

### Perceptron

In [7]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "Perceptron"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'penalty': ['none', 'l2', 'l1', 'elasticnet'],
    'alpha': [0.00001, 0.00001, 0.0001, 0.001, 0.01],
    'tol': [0.01, 0.001, 0.0001, 0.00001]
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(Perceptron(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['Perceptron',
 0.926235294117647,
 0.00743925806472885,
 0.005957841873168945,
 0.0061809949212695055,
 Perceptron(alpha=1e-05, penalty='none', tol=0.01)]

### SGD

In [8]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "SGD"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'loss': ['hinge', 'log', 'modified_huber', 'squared_hinge', 'perceptron'],
    'penalty': ['none', 'l2', 'l1', 'elasticnet'],
    'alpha': [0.00001, 0.0001, 0.001],
    'tol': [0.01, 0.001, 0.0001]
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(SGDClassifier(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['SGD',
 0.950294117647059,
 0.0032698687316911144,
 0.0012205123901367187,
 7.9590021238173e-05,
 SGDClassifier(alpha=1e-05, loss='perceptron', penalty='l1', tol=0.01)]

### SVM

In [9]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "SVM"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'C': [0.01, 0.1, 1],
    'kernel': ['linear', 'poly', 'rbf'],
    'degree': [3,4,5],
    'decision_function_shape': ['ovo', 'ovr']
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(SVC(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['SVM',
 0.9488235294117647,
 0.002543735095345841,
 0.6048146724700928,
 0.11490018112544995,
 SVC(C=1, decision_function_shape='ovo', kernel='linear')]

### KNN

In [10]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "KNN"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'n_neighbors': [1,3,5,7,9],
    'metric': ['euclidean', 
               'manhattan']
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(KNeighborsClassifier(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['KNN',
 0.9156470588235294,
 0.0037175353669000057,
 1.2740232467651367,
 0.08246500646681568,
 KNeighborsClassifier(metric='manhattan', n_neighbors=7)]

### MLP

In [11]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "MLP"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'hidden_layer_sizes': [(), (5), (10)],
    'activation': ['tanh', 'relu'],
    'solver': ['sgd', 'adam'],
    'learning_rate': ['constant', 'adaptive'],
    'learning_rate_init': [1e-4, 1e-3, 1e-2]
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(MLPClassifier(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['MLP',
 0.9552352941176471,
 0.0025053575810643418,
 0.01575469970703125,
 0.004737745492935724,
 MLPClassifier(activation='tanh', hidden_layer_sizes=10)]

### Visualizando e Salvando os Resultados

In [12]:
caminhoOndeSalvar   = "../../Resultados/gridsearch_" + avaliarComBaseEm + "_" + "_".join(caminhoCSV.split("_")[1:])
dataframeResultados = pd.DataFrame(tabelaResultados, columns=["classificador", "media_"+avaliarComBaseEm, "desvio_"+avaliarComBaseEm, "media_tempo", "desvio_tempo", "melhor_modelo"])
dataframeResultados.to_csv(caminhoOndeSalvar, index=False)
dataframeResultados

Unnamed: 0,classificador,media_accuracy,desvio_accuracy,media_tempo,desvio_tempo,melhor_modelo
0,RF,0.954118,0.003017,0.088075,0.084334,"(DecisionTreeClassifier(criterion='entropy', m..."
1,LDA,0.892471,0.00641,0.006935,0.0112,LinearDiscriminantAnalysis(tol=1e-05)
2,QDA,0.926941,0.002744,0.008726,0.004281,QuadraticDiscriminantAnalysis(tol=1e-06)
3,Perceptron,0.926235,0.007439,0.005958,0.006181,"Perceptron(alpha=1e-05, penalty='none', tol=0.01)"
4,SGD,0.950294,0.00327,0.001221,8e-05,"SGDClassifier(alpha=1e-05, loss='perceptron', ..."
5,SVM,0.948824,0.002544,0.604815,0.1149,"SVC(C=1, decision_function_shape='ovo', kernel..."
6,KNN,0.915647,0.003718,1.274023,0.082465,"KNeighborsClassifier(metric='manhattan', n_nei..."
7,MLP,0.955235,0.002505,0.015755,0.004738,"MLPClassifier(activation='tanh', hidden_layer_..."
