# Gridsearch

Vamos usar um dos datasets gerados para fazer um gridsearch com alguns classificadores. 

O dataset que será utilizado conta com 1 usuário conectado, 256 antenas e 128 símbolos na sequência piloto. 

Features: snr, E, eta, a1, a2 e a3. Target: se tem ou não contaminação.

### Importações

In [13]:
import pandas as pd
import numpy as np
from IPython.display import display, clear_output
from sklearn.utils import shuffle
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.linear_model import Perceptron, SGDClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neural_network import MLPClassifier

### Abrindo o Banco de Dados

In [14]:
# ABRO O CSV
caminhoCSV = "../../CSV/dataset_1usuarios_256antenas_128simbolos_1599161115.4013596.csv"
datasetCSV = pd.read_csv(caminhoCSV)

# SEPARANDO DATA E TARGET E DANDO UM SHUFFLEZINHO
data         = datasetCSV[datasetCSV.columns[:-2]].to_numpy()
target       = datasetCSV[datasetCSV.columns[-1]].to_numpy()
data, target = shuffle(data, target)

### Parâmetros Inicias

In [15]:
# VAMOS FAZER UM KFOLD COM qtdFolds PASTAS
qtdFolds = 5

# O GRIDSEARCH VAI TENTAR MELHORAR QUAL METRICA?
avaliarComBaseEm = 'f1' # outras: 'accuracy', 'f1', ‘precision’... -> https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter

# QUANTOS NUCLEOS VAMOS USAR?
nJobs = -1

# MATRIZ DE RESULTADOS: vou fazer uma tabela pra guardar os resultados, cada linha um classificador. As colunas vão ser: classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo
tabelaResultados = []

### Random Forest

In [16]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "RF"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'n_estimators': [1, 10, 50],
    'criterion': ['gini', 'entropy'],
    'min_samples_split': [2,4,6],
    'min_samples_leaf': [1,2,3],
    'max_features': [None, 'sqrt', 'log2']
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(RandomForestClassifier(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['RF',
 0.9997058996387151,
 0.00018601634421410777,
 0.025356292724609375,
 0.008985463488689616,
 RandomForestClassifier(criterion='entropy', max_features='sqrt',
                        min_samples_leaf=2, min_samples_split=6,
                        n_estimators=10)]

### LDA

In [17]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "LDA"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'solver': ['svd', 'lsqr', 'eigen'],
    'tol': [1e-5, 1e-4, 1e-3]
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(LinearDiscriminantAnalysis(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['LDA',
 0.8863792813252843,
 0.006251316693570915,
 0.006610107421875,
 0.00403545042922181,
 LinearDiscriminantAnalysis(tol=1e-05)]

### QDA

In [18]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "QDA"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'tol': [1e-6, 1e-5, 1e-4, 1e-3, 1e-2]
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(QuadraticDiscriminantAnalysis(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['QDA',
 0.9951993703558732,
 0.0006281418114809642,
 0.004860925674438477,
 0.00103613994955932,
 QuadraticDiscriminantAnalysis(tol=1e-06)]

### Perceptron

In [19]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "Perceptron"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'penalty': ['none', 'l2', 'l1', 'elasticnet'],
    'alpha': [0.00001, 0.00001, 0.0001, 0.001, 0.01],
    'tol': [0.01, 0.001, 0.0001, 0.00001]
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(Perceptron(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['Perceptron',
 0.9825613096545919,
 0.012234580377030499,
 0.0037003517150878905,
 0.0002542203366267998,
 Perceptron(alpha=0.01, penalty='l1', tol=0.01)]

### SGD

In [20]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "SGD"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'loss': ['hinge', 'log', 'modified_huber', 'squared_hinge', 'perceptron'],
    'penalty': ['none', 'l2', 'l1', 'elasticnet'],
    'alpha': [0.00001, 0.0001, 0.001],
    'tol': [0.01, 0.001, 0.0001]
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(SGDClassifier(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['SGD',
 0.9997647404640778,
 0.00011762978704590335,
 0.0035799503326416015,
 0.00015856162711215242,
 SGDClassifier(alpha=1e-05, penalty='elasticnet', tol=0.01)]

### SVM

In [21]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "SVM"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'C': [0.01, 0.1, 1],
    'kernel': ['linear', 'poly', 'rbf'],
    'degree': [3,4,5],
    'decision_function_shape': ['ovo', 'ovr']
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(SVC(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['SVM',
 0.9996470588133523,
 0.0002200974974195557,
 0.010036563873291016,
 0.005518806073575035,
 SVC(C=0.01, decision_function_shape='ovo', kernel='linear')]

### KNN

In [22]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "KNN"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'n_neighbors': [1,3,5,7,9],
    'metric': ['euclidean', 
               'manhattan']
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(KNeighborsClassifier(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['KNN',
 0.9997058650366359,
 0.0001860163442160009,
 0.5762840747833252,
 0.09464412692167021,
 KNeighborsClassifier(metric='euclidean', n_neighbors=7)]

### MLP

In [23]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "MLP"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'hidden_layer_sizes': [(), (5), (10)],
    'activation': ['tanh', 'relu'],
    'solver': ['sgd', 'adam'],
    'learning_rate': ['constant', 'adaptive'],
    'learning_rate_init': [1e-4, 1e-3, 1e-2]
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(MLPClassifier(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['MLP',
 0.9995293078668388,
 0.00014424313000843998,
 0.0024194717407226562,
 0.00010260190574243081,
 MLPClassifier(hidden_layer_sizes=10, learning_rate='adaptive')]

### Visualizando e Salvando os Resultados

In [24]:
caminhoOndeSalvar   = "../../Resultados/gridsearch_" + avaliarComBaseEm + "_" + "_".join(caminhoCSV.split("_")[1:])
dataframeResultados = pd.DataFrame(tabelaResultados, columns=["classificador", "media_"+avaliarComBaseEm, "desvio_"+avaliarComBaseEm, "media_tempo", "desvio_tempo", "melhor_modelo"])
dataframeResultados.to_csv(caminhoOndeSalvar, index=False)
dataframeResultados

Unnamed: 0,classificador,media_f1,desvio_f1,media_tempo,desvio_tempo,melhor_modelo
0,RF,0.999706,0.000186,0.025356,0.008985,"(DecisionTreeClassifier(criterion='entropy', m..."
1,LDA,0.886379,0.006251,0.00661,0.004035,LinearDiscriminantAnalysis(tol=1e-05)
2,QDA,0.995199,0.000628,0.004861,0.001036,QuadraticDiscriminantAnalysis(tol=1e-06)
3,Perceptron,0.982561,0.012235,0.0037,0.000254,"Perceptron(alpha=0.01, penalty='l1', tol=0.01)"
4,SGD,0.999765,0.000118,0.00358,0.000159,"SGDClassifier(alpha=1e-05, penalty='elasticnet..."
5,SVM,0.999647,0.00022,0.010037,0.005519,"SVC(C=0.01, decision_function_shape='ovo', ker..."
6,KNN,0.999706,0.000186,0.576284,0.094644,"KNeighborsClassifier(metric='euclidean', n_nei..."
7,MLP,0.999529,0.000144,0.002419,0.000103,"MLPClassifier(hidden_layer_sizes=10, learning_..."
