# Gridsearch

Vamos usar um dos datasets gerados para fazer um gridsearch com alguns classificadores. 

O dataset que será utilizado conta com 1 usuário conectado, 256 antenas e 128 símbolos na sequência piloto. 

Features: snr, E, eta, a1, a2 e a3. Target: se tem ou não contaminação.

### Importações

In [1]:
import pandas as pd
import numpy as np
from IPython.display import display, clear_output
from sklearn.utils import shuffle
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.linear_model import Perceptron, SGDClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neural_network import MLPClassifier

### Abrindo o Banco de Dados

In [2]:
# ABRO O CSV
caminhoCSV = "../../CSV/dataset_1usuarios_256antenas_128simbolos_1599161115.4013596.csv"
datasetCSV = pd.read_csv(caminhoCSV)

# SEPARANDO DATA E TARGET E DANDO UM SHUFFLEZINHO
data         = datasetCSV[datasetCSV.columns[:-2]].to_numpy()
target       = datasetCSV[datasetCSV.columns[-1]].to_numpy()
data, target = shuffle(data, target)

### Parâmetros Inicias

In [3]:
# VAMOS FAZER UM KFOLD COM qtdFolds PASTAS
qtdFolds = 5

# O GRIDSEARCH VAI TENTAR MELHORAR QUAL METRICA?
avaliarComBaseEm = 'accuracy' # outras: 'accuracy', 'f1', ‘precision’... -> https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter

# QUANTOS NUCLEOS VAMOS USAR?
nJobs = -1

# MATRIZ DE RESULTADOS: vou fazer uma tabela pra guardar os resultados, cada linha um classificador. As colunas vão ser: classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo
tabelaResultados = []

### Random Forest

In [4]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "RF"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'n_estimators': [1, 10, 50],
    'criterion': ['gini', 'entropy'],
    'min_samples_split': [2,4,6],
    'min_samples_leaf': [1,2,3],
    'max_features': [None, 'sqrt', 'log2']
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(RandomForestClassifier(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['RF',
 0.9997058823529412,
 0.0002630668208823372,
 0.13696303367614746,
 0.048001056103757926,
 RandomForestClassifier(max_features='sqrt', min_samples_split=4,
                        n_estimators=50)]

### LDA

In [5]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "LDA"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'solver': ['svd', 'lsqr', 'eigen'],
    'tol': [1e-5, 1e-4, 1e-3]
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(LinearDiscriminantAnalysis(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['LDA',
 0.8979411764705881,
 0.003757345746510907,
 0.0019526004791259766,
 0.0016497366122920753,
 LinearDiscriminantAnalysis(tol=1e-05)]

### QDA

In [6]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "QDA"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'tol': [1e-6, 1e-5, 1e-4, 1e-3, 1e-2]
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(QuadraticDiscriminantAnalysis(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['QDA',
 0.9950588235294117,
 0.0006550311015094208,
 0.0035558223724365236,
 0.003251279920056544,
 QuadraticDiscriminantAnalysis(tol=1e-06)]

### Perceptron

In [7]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "Perceptron"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'penalty': ['none', 'l2', 'l1', 'elasticnet'],
    'alpha': [0.00001, 0.00001, 0.0001, 0.001, 0.01],
    'tol': [0.01, 0.001, 0.0001, 0.00001]
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(Perceptron(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['Perceptron',
 0.9966470588235292,
 0.0018092419410858517,
 0.007531642913818359,
 0.012724637138696314,
 Perceptron(penalty='l2', tol=0.01)]

### SGD

In [8]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "SGD"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'loss': ['hinge', 'log', 'modified_huber', 'squared_hinge', 'perceptron'],
    'penalty': ['none', 'l2', 'l1', 'elasticnet'],
    'alpha': [0.00001, 0.0001, 0.001],
    'tol': [0.01, 0.001, 0.0001]
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(SGDClassifier(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['SGD',
 0.999764705882353,
 0.0002200974933396452,
 0.0011622905731201172,
 6.0863551657138254e-05,
 SGDClassifier(loss='modified_huber', tol=0.0001)]

### SVM

In [9]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "SVM"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'C': [0.01, 0.1, 1],
    'kernel': ['linear', 'poly', 'rbf'],
    'degree': [3,4,5],
    'decision_function_shape': ['ovo', 'ovr']
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(SVC(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['SVM',
 0.999764705882353,
 0.0002200974933396452,
 0.007303857803344726,
 0.006504270438978004,
 SVC(C=0.1, decision_function_shape='ovo', kernel='linear')]

### KNN

In [10]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "KNN"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'n_neighbors': [1,3,5,7,9],
    'metric': ['euclidean', 
               'manhattan']
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(KNeighborsClassifier(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['KNN',
 0.9997058823529412,
 0.000322189739708912,
 1.2415080547332764,
 0.11399797711488384,
 KNeighborsClassifier(metric='euclidean', n_neighbors=7)]

### MLP

In [11]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "MLP"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'hidden_layer_sizes': [(), (5), (10)],
    'activation': ['tanh', 'relu'],
    'solver': ['sgd', 'adam'],
    'learning_rate': ['constant', 'adaptive'],
    'learning_rate_init': [1e-4, 1e-3, 1e-2]
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(MLPClassifier(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['MLP',
 0.9995882352941177,
 0.0002999423243289889,
 0.011229467391967774,
 0.007145504125669305,
 MLPClassifier(activation='tanh', hidden_layer_sizes=10,
               learning_rate='adaptive')]

### Visualizando e Salvando os Resultados

In [12]:
caminhoOndeSalvar   = "../../Resultados/gridsearch_" + avaliarComBaseEm + "_" + "_".join(caminhoCSV.split("_")[1:])
dataframeResultados = pd.DataFrame(tabelaResultados, columns=["classificador", "media_"+avaliarComBaseEm, "desvio_"+avaliarComBaseEm, "media_tempo", "desvio_tempo", "melhor_modelo"])
dataframeResultados.to_csv(caminhoOndeSalvar, index=False)
dataframeResultados

Unnamed: 0,classificador,media_accuracy,desvio_accuracy,media_tempo,desvio_tempo,melhor_modelo
0,RF,0.999706,0.000263,0.136963,0.048001,"(DecisionTreeClassifier(max_features='sqrt', m..."
1,LDA,0.897941,0.003757,0.001953,0.00165,LinearDiscriminantAnalysis(tol=1e-05)
2,QDA,0.995059,0.000655,0.003556,0.003251,QuadraticDiscriminantAnalysis(tol=1e-06)
3,Perceptron,0.996647,0.001809,0.007532,0.012725,"Perceptron(penalty='l2', tol=0.01)"
4,SGD,0.999765,0.00022,0.001162,6.1e-05,"SGDClassifier(loss='modified_huber', tol=0.0001)"
5,SVM,0.999765,0.00022,0.007304,0.006504,"SVC(C=0.1, decision_function_shape='ovo', kern..."
6,KNN,0.999706,0.000322,1.241508,0.113998,"KNeighborsClassifier(metric='euclidean', n_nei..."
7,MLP,0.999588,0.0003,0.011229,0.007146,"MLPClassifier(activation='tanh', hidden_layer_..."
