# Algoritmo para fazer o Grid Search com alguns classificadores para o SESA Dataset

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import GridSearchCV, GroupKFold
from sklearn.metrics import accuracy_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.linear_model import Perceptron, SGDClassifier
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

In [2]:
caminhoArquivo = "/home/dimi/Programming/IC2019/ML/jupyter/Outros/resultadosGridsearchSESAAugmentation.txt"

In [3]:
def resultados(modelo, caminhoArquivo):
    
    mediaAcuracia   = modelo.best_score_
    desvPadAcuracia = np.std(modelo.cv_results_['mean_test_score'])
    mediaTempo      = np.mean(modelo.cv_results_['mean_score_time'])
    desvPadTempo    = np.std(modelo.cv_results_['mean_score_time'])
    
    objFile = open(caminhoArquivo, "a")
    
    linha = str(modelo.best_estimator_) + "\n"
    objFile.write(linha) 
    print(linha)
    
    linha = 'Acurácia Média: ' + str(mediaAcuracia) + ' +- ' + str(desvPadAcuracia) + "\n"
    objFile.write(linha) 
    print(linha)
    
    linha = 'Time: ' + str(mediaTempo) + ' +- ' + str(desvPadTempo) + "\n\n"
    objFile.write(linha) 
    print(linha)   
    
    objFile.close() 

#### Abrindo os CSVs de treino e teste e separando os dados em x e y

In [4]:
caminhoCSVTreino = "/home/dimi/Programming/IC2019/ML/datasets/SESA/SESA_Normalizado/train_augmentation/treino_augmentation_normalizado_semPCA.csv"
caminhoCSVTeste  = "/home/dimi/Programming/IC2019/ML/datasets/SESA/SESA_Normalizado/test/teste_normalizado_semPCA.csv"

dataframeTreino  = pd.read_csv(caminhoCSVTreino)
dataframeTeste   = pd.read_csv(caminhoCSVTeste)

print("Tamanho dataframe treino:", len(dataframeTreino))
print("Tamanho dataframe teste:", len(dataframeTeste))
print("Total de dados:", len(dataframeTreino) + len(dataframeTeste))

Tamanho dataframe treino: 59880
Tamanho dataframe teste: 1354
Total de dados: 61234


##### Só rodar a célula abaixo se quiser diminuir o tamanho do dataset para testes rápidos

In [5]:
# percentual = 0.15

# dataframeTreino = dataframeTreino[0:int(percentual * len(dataframeTreino))]
# dataframeTeste  = dataframeTeste[0:int(percentual * len(dataframeTeste))]

# print("Tamanho dataframe treino:", len(dataframeTreino))
# print("Tamanho dataframe teste:", len(dataframeTeste))
# print("Total de dados:", len(dataframeTreino) + len(dataframeTeste))

#### Usando o Group K Fold para garantir que todos os frames de um mesmo áudio fiquem na mesma pasta em um K Fold

Para fazer a validação cruzada, não posso deixar que um mesmo áudio seja usado tanto no treinamento quanto no teste. É preciso garantir que todos os frames de um determinado áudio façam parte ou do treinamento ou do teste.

Fazendo "groups" ser igual ao nomes dos arquivos, é possível usar a classe GroupKFold para fazer o K Fold sem que os áudios se misturem.

In [6]:
data   = np.array(dataframeTreino.iloc[:,1:-1].values.tolist() + dataframeTeste.iloc[:,1:-1].values.tolist())
target = np.array(dataframeTreino.iloc[:,-1].values.tolist() + dataframeTeste.iloc[:,-1].values.tolist())
groups = np.array(dataframeTreino.iloc[:,0].values.tolist() + dataframeTeste.iloc[:,0].values.tolist())

In [7]:
# TESTANDO COMO USAR ESSA CLASSE
# objGroupKFold = GroupKFold(n_splits=3)

# for trainIndex, testIndex in objGroupKFold.split(data, target, groups):
#     xTrain, xTest = data[trainIndex], data[testIndex]
#     yTrain, yTest = target[trainIndex], target[testIndex]
    
#     objKNN = KNeighborsClassifier()
#     objKNN.fit(xTrain, yTrain)
#     yPred = objKNN.predict(xTest)
    
#     print("Acurácia:", accuracy_score(yTest, yPred))

## KNN

In [8]:
grid_params_knn = [
    {
        'n_neighbors': [3,5,7,11,13],
     
        'weights': ['uniform', 
                    'distance'],
     
        'metric': ['euclidean', 
                   'manhattan', 
                   'chebyshev', 
                   'minkowski']
    }
]

gs_knn = GridSearchCV(
    KNeighborsClassifier(),
    grid_params_knn,
    verbose=10,
    cv=GroupKFold(n_splits=3).split(data, target, groups),
    n_jobs=-1,
    scoring='accuracy'
)

In [9]:
gs_knn.fit(data, target)

Fitting 3 folds for each of 40 candidates, totalling 120 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 4 concurrent workers.


KeyboardInterrupt: 

In [None]:
resultados(gs_knn, caminhoArquivo)

## SGD

In [None]:
grid_params_sgd = [
    {
        'loss': ['hinge', 'log', 'modified_huber', 'squared_hinge', 'perceptron'],
        'penalty': ['none', 'l2', 'l1', 'elasticnet'],
        'alpha': [0.00001, 0.0001, 0.001],
        'tol': [0.01, 0.001, 0.0001]
    }
]

gs_sgd = GridSearchCV(
    SGDClassifier(),
    grid_params_sgd,
    verbose=10,
    cv=GroupKFold(n_splits=3).split(data, target, groups),
    n_jobs=-1,
    scoring='accuracy'
)

In [None]:
gs_sgd.fit(data, target)

In [None]:
resultados(gs_sgd, caminhoArquivo)

## Decision Tree

In [None]:
grid_params_tree = [
    {
        'criterion': ['gini', 'entropy'],
        'min_samples_split': [2,6,10,16],
        'min_samples_leaf': [1,2,3,4,5],
        'min_impurity_split': [1e-9, 1e-8, 1e-7, 1e-6]
    }
]

gs_tree = GridSearchCV(
    DecisionTreeClassifier(),
    grid_params_tree,
    verbose=10,
    cv=GroupKFold(n_splits=3).split(data, target, groups),
    n_jobs=-1,
    scoring='accuracy'
)

In [None]:
gs_tree.fit(data, target)

In [None]:
resultados(gs_tree, caminhoArquivo)

## SVM

In [None]:
grid_params_svm = [
    {
        'C': [0.01, 0.1, 1],
        'kernel': ['linear', 'poly', 'rbf'],
        'degree': [3,4,5],
        'decision_function_shape': ['ovo', 'ovr']
    }
]

gs_svm = GridSearchCV(
    SVC(),
    grid_params_svm,
    verbose=10,
    cv=GroupKFold(n_splits=3).split(data, target, groups),
    n_jobs=-1,
    scoring='accuracy'
)

In [None]:
gs_svm.fit(data, target)

In [None]:
resultados(gs_svm, caminhoArquivo)

## Perceptron

In [None]:
grid_params_perceptron = [
    {
        'penalty': ['none', 'l2', 'l1', 'elasticnet'],
        'alpha': [0.00001, 0.00001, 0.0001, 0.001, 0.01],
        'tol': [0.01, 0.001, 0.0001, 0.00001]
    }
]

gs_perceptron = GridSearchCV(
    Perceptron(),
    grid_params_perceptron,
    verbose=10,
    cv=GroupKFold(n_splits=3).split(data, target, groups),
    n_jobs=-1,
    scoring='accuracy'
)

In [None]:
gs_perceptron.fit(data, target)

In [None]:
resultados(gs_perceptron, caminhoArquivo)

## LDA

In [None]:
grid_params_lda = [
    {
        'solver': ['svd', 'lsqr', 'eigen'],
        'store_covariance': [True, False],
        'tol': [1e-5,1e-4,1e-3]
    }
]

gs_lda = GridSearchCV(
    LinearDiscriminantAnalysis(),
    grid_params_lda,
    verbose=10,
    cv=GroupKFold(n_splits=3).split(data, target, groups),
    n_jobs=-1,
    scoring='accuracy'
)

In [None]:
gs_lda.fit(data, target)

In [None]:
resultados(gs_lda, caminhoArquivo)