# Gridsearch

Vamos usar um dos datasets gerados para fazer um gridsearch com alguns classificadores. 

O dataset que será utilizado conta com 1 usuário conectado, 256 antenas e 128 símbolos na sequência piloto. 

Features: snr, E, eta, a1, a2 e a3. Target: se tem ou não contaminação.

### Importações

In [1]:
import pandas as pd
import numpy as np
from IPython.display import display, clear_output
from sklearn.utils import shuffle
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.linear_model import Perceptron, SGDClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neural_network import MLPClassifier

### Abrindo o Banco de Dados

In [2]:
# ABRO O CSV
caminhoCSV = "../../CSV/dataset_4usuarios_64antenas_8simbolos_1599161657.8460925.csv"
datasetCSV = pd.read_csv(caminhoCSV)

# SEPARANDO DATA E TARGET E DANDO UM SHUFFLEZINHO
data         = datasetCSV[datasetCSV.columns[:-2]].to_numpy()
target       = datasetCSV[datasetCSV.columns[-1]].to_numpy()
data, target = shuffle(data, target)

### Parâmetros Inicias

In [3]:
# VAMOS FAZER UM KFOLD COM qtdFolds PASTAS
qtdFolds = 5

# O GRIDSEARCH VAI TENTAR MELHORAR QUAL METRICA?
avaliarComBaseEm = 'f1' # outras: 'accuracy', 'f1', ‘precision’... -> https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter

# QUANTOS NUCLEOS VAMOS USAR?
nJobs = -1

# MATRIZ DE RESULTADOS: vou fazer uma tabela pra guardar os resultados, cada linha um classificador. As colunas vão ser: classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo
tabelaResultados = []

### Random Forest

In [4]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "RF"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'n_estimators': [1, 10, 50],
    'criterion': ['gini', 'entropy'],
    'min_samples_split': [2,4,6],
    'min_samples_leaf': [1,2,3],
    'max_features': [None, 'sqrt', 'log2']
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(RandomForestClassifier(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['RF',
 0.9538454711478032,
 0.003856076667096006,
 0.05423207283020019,
 0.003693916120024903,
 RandomForestClassifier(criterion='entropy', max_features='log2',
                        min_samples_leaf=3, min_samples_split=4,
                        n_estimators=50)]

### LDA

In [5]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "LDA"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'solver': ['svd', 'lsqr', 'eigen'],
    'tol': [1e-5, 1e-4, 1e-3]
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(LinearDiscriminantAnalysis(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['LDA',
 0.8818034752352805,
 0.005879515751670822,
 0.016307640075683593,
 0.005047071980519481,
 LinearDiscriminantAnalysis(tol=1e-05)]

### QDA

In [6]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "QDA"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'tol': [1e-6, 1e-5, 1e-4, 1e-3, 1e-2]
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(QuadraticDiscriminantAnalysis(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['QDA',
 0.9238748551498714,
 0.005535142567070065,
 0.005821371078491211,
 0.0033540264378103726,
 QuadraticDiscriminantAnalysis(tol=1e-06)]

### Perceptron

In [7]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "Perceptron"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'penalty': ['none', 'l2', 'l1', 'elasticnet'],
    'alpha': [0.00001, 0.00001, 0.0001, 0.001, 0.01],
    'tol': [0.01, 0.001, 0.0001, 0.00001]
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(Perceptron(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['Perceptron',
 0.9263458594726985,
 0.010253876454533652,
 0.005129575729370117,
 0.0033028601891030756,
 Perceptron(penalty='l1', tol=0.01)]

### SGD

In [8]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "SGD"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'loss': ['hinge', 'log', 'modified_huber', 'squared_hinge', 'perceptron'],
    'penalty': ['none', 'l2', 'l1', 'elasticnet'],
    'alpha': [0.00001, 0.0001, 0.001],
    'tol': [0.01, 0.001, 0.0001]
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(SGDClassifier(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['SGD',
 0.950370687854039,
 0.0049202185572967015,
 0.0033637046813964843,
 0.00012379987513758692,
 SGDClassifier(alpha=1e-05, penalty='none', tol=0.0001)]

### SVM

In [9]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "SVM"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'C': [0.01, 0.1, 1],
    'kernel': ['linear', 'poly', 'rbf'],
    'degree': [3,4,5],
    'decision_function_shape': ['ovo', 'ovr']
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(SVC(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['SVM',
 0.9478699590742741,
 0.004023262138937729,
 0.5787885189056396,
 0.037129060727784206,
 SVC(C=1, decision_function_shape='ovo', kernel='linear')]

### KNN

In [10]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "KNN"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'n_neighbors': [1,3,5,7,9],
    'metric': ['euclidean', 
               'manhattan']
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(KNeighborsClassifier(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['KNN',
 0.9114493566861492,
 0.006755067864695625,
 1.2013219356536866,
 0.1227721350825727,
 KNeighborsClassifier(metric='manhattan', n_neighbors=7)]

### MLP

In [11]:
# NOME DO CLASSIFICADOR (PRA GUARDAR NOS RESULTADOS)
classificador = "MLP"

# PARAMETROS PRA TESTAR NO GRIDSEARCH
parametrosGrid = [{
    'hidden_layer_sizes': [(), (5), (10)],
    'activation': ['tanh', 'relu'],
    'solver': ['sgd', 'adam'],
    'learning_rate': ['constant', 'adaptive'],
    'learning_rate_init': [1e-4, 1e-3, 1e-2]
}]

# AJUSTANDO O GRIDSEARCH E RODANDO
objGS = GridSearchCV(MLPClassifier(), parametrosGrid, verbose=10, cv=qtdFolds, n_jobs=nJobs, scoring=avaliarComBaseEm)
objGS.fit(X=data, y=target)

# SALVANDO O RESULTADO (classificador, mediametrica, desviometrica, tempomedio, desviotempo e melhor modelo)
tabelaResultados.append([classificador, objGS.cv_results_["mean_test_score"][objGS.best_index_], objGS.cv_results_["std_test_score"][objGS.best_index_], objGS.cv_results_['mean_score_time'][objGS.best_index_], objGS.cv_results_['std_score_time'][objGS.best_index_], objGS.best_estimator_])

# PRINT
clear_output(wait=True)
display(tabelaResultados[len(tabelaResultados)-1])

['MLP',
 0.9543654241730198,
 0.004285781294999606,
 0.019053077697753905,
 0.01100930851737788,
 MLPClassifier(activation='tanh', hidden_layer_sizes=10,
               learning_rate='adaptive')]

### Visualizando e Salvando os Resultados

In [12]:
caminhoOndeSalvar   = "../../Resultados/gridsearch_" + avaliarComBaseEm + "_" + "_".join(caminhoCSV.split("_")[1:])
dataframeResultados = pd.DataFrame(tabelaResultados, columns=["classificador", "media_"+avaliarComBaseEm, "desvio_"+avaliarComBaseEm, "media_tempo", "desvio_tempo", "melhor_modelo"])
dataframeResultados.to_csv(caminhoOndeSalvar, index=False)
dataframeResultados

Unnamed: 0,classificador,media_f1,desvio_f1,media_tempo,desvio_tempo,melhor_modelo
0,RF,0.953845,0.003856,0.054232,0.003694,"(DecisionTreeClassifier(criterion='entropy', m..."
1,LDA,0.881803,0.00588,0.016308,0.005047,LinearDiscriminantAnalysis(tol=1e-05)
2,QDA,0.923875,0.005535,0.005821,0.003354,QuadraticDiscriminantAnalysis(tol=1e-06)
3,Perceptron,0.926346,0.010254,0.00513,0.003303,"Perceptron(penalty='l1', tol=0.01)"
4,SGD,0.950371,0.00492,0.003364,0.000124,"SGDClassifier(alpha=1e-05, penalty='none', tol..."
5,SVM,0.94787,0.004023,0.578789,0.037129,"SVC(C=1, decision_function_shape='ovo', kernel..."
6,KNN,0.911449,0.006755,1.201322,0.122772,"KNeighborsClassifier(metric='manhattan', n_nei..."
7,MLP,0.954365,0.004286,0.019053,0.011009,"MLPClassifier(activation='tanh', hidden_layer_..."
