# Gridsearch

Vamos usar um dos datasets gerados para fazer um gridsearch com alguns classificadores. 

O dataset que será utilizado conta com 1 usuário conectado, 256 antenas e 128 símbolos na sequência piloto. 

Features: snr, E, eta, a1, a2 e a3. Target: se tem ou não contaminação.

### Importações

In [None]:
import pandas as pd
import numpy as np
from IPython.display import display, clear_output
from sklearn.utils import shuffle
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.linear_model import Perceptron, SGDClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neural_network import MLPClassifier

### Abrindo o Banco de Dados

In [None]:
# ABRO O CSV
caminhoCSV = "../../CSV/dataset_1usuarios_256antenas_128simbolos_1599161115.4013596.csv"
datasetCSV = pd.read_csv(caminhoCSV)

# SEPARANDO DATA E TARGET E DANDO UM SHUFFLEZINHO
data         = datasetCSV[datasetCSV.columns[:-2]].to_numpy()
target       = datasetCSV[datasetCSV.columns[-1]].to_numpy()
data, target = shuffle(data, target)

### Parâmetros Inicias

In [None]:
# VAMOS FAZER UM KFOLD COM qtdFolds PASTAS
qtdFolds = 5

# O GRIDSEARCH VAI TENTAR MELHORAR QUAL METRICA?
avaliarComBaseEm = 'f1' # outras: 'accuracy', 'f1', ‘precision’... -> https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter

# QUANTOS NUCLEOS VAMOS USAR?
nJobs = -1

# MATRIZ DE RESULTADOS: vou fazer uma tabela pra guardar os resultados, cada linha um classificador. As colunas vão ser: classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo
tabelaResultados = []

### Random Forest

In [None]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "RF"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'n_estimators': [1, 10, 50],
    'criterion': ['gini', 'entropy'],
    'min_samples_split': [2,4,6],
    'min_samples_leaf': [1,2,3],
    'max_features': [None, 'sqrt', 'log2']
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(RandomForestClassifier(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

### LDA

In [None]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "LDA"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'solver': ['svd', 'lsqr', 'eigen'],
    'tol': [1e-5, 1e-4, 1e-3]
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(LinearDiscriminantAnalysis(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

### QDA

In [None]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "QDA"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'tol': [1e-6, 1e-5, 1e-4, 1e-3, 1e-2]
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(QuadraticDiscriminantAnalysis(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

### Perceptron

In [None]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "Perceptron"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'penalty': ['none', 'l2', 'l1', 'elasticnet'],
    'alpha': [0.00001, 0.00001, 0.0001, 0.001, 0.01],
    'tol': [0.01, 0.001, 0.0001, 0.00001]
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(Perceptron(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

### SGD

In [None]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "SGD"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'loss': ['hinge', 'log', 'modified_huber', 'squared_hinge', 'perceptron'],
    'penalty': ['none', 'l2', 'l1', 'elasticnet'],
    'alpha': [0.00001, 0.0001, 0.001],
    'tol': [0.01, 0.001, 0.0001]
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(SGDClassifier(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

### SVM

In [None]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "SVM"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'C': [0.01, 0.1, 1],
    'kernel': ['linear', 'poly', 'rbf'],
    'degree': [3,4,5],
    'decision_function_shape': ['ovo', 'ovr']
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(SVC(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

### KNN

In [None]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "KNN"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'n_neighbors': [1,3,5,7,9],
    'metric': ['euclidean', 
               'manhattan']
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(KNeighborsClassifier(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

### MLP

In [None]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "MLP"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'hidden_layer_sizes': [(), (5), (10)],
    'activation': ['tanh', 'relu'],
    'solver': ['sgd', 'adam'],
    'learning_rate': ['constant', 'adaptive'],
    'learning_rate_init': [1e-4, 1e-3, 1e-2]
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(MLPClassifier(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

### Visualizando e Salvando os Resultados

In [None]:
caminhoOndeSalvar   = "../../Resultados/gridsearch_" + avaliarComBaseEm + "_" + "_".join(caminhoCSV.split("_")[1:])
dataframeResultados = pd.DataFrame(tabelaResultados, columns=["classificador", "media_"+avaliarComBaseEm, "desvio_"+avaliarComBaseEm, "media_tempo", "desvio_tempo", "melhor_modelo"])
dataframeResultados.to_csv(caminhoOndeSalvar, index=False)
dataframeResultados