# Classificação e rotulação dos dados

Com as atividades realizadas nos notebooks anteriores, já é mais do que possível aplicarmos um classificador simples para testarmos nossos dados. Nesta aula vamos aplicar o classificador SVM (*Support Vector Machine*) que pode nos mostrar bons resultados (se levarmos em consideração trabalhos relacionados da área).

Após a primeira impressão do classificador, já é possível revisitarmos passos anteriores para alterá-los, a fim de buscar melhores resultados de acurácia do classificador. Sugere que este seja um primeiro desafio após a implementação do classificador.

Inicialmente, temos que desenvolver o vetor de rótulos que está relacionado com os nossos dados.

## Criação do vetor de rótulos

Primeiro iremos verificar se foram concatenados amostras das 10 classes consecutivas (1) ou então os 6 trials de cada movimento consecutivos. Ex.:

1. 1,2,3,4,5,6,7,8,9,10,1,2,3,4,5,6,7,8,9,10,...
2. 1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,3,...

Em nosso caso, os dados estão como implicitamente rotulados como na sequência (1).

In [40]:
# carregamento de dados dos anteriores

import numpy as np

X = np.load('temp_data/khushaba_feat.npy')
X.shape

(60, 41, 2, 4)

Após o carregamento dos dados anteriores, vamos obter o último objeto de dados, **reorganizá-lo** quanto ao seu `shape` e criar o vetor de rótulos.

In [41]:
# original:

print('classes + trials, amostras, canais, características')
X.shape

classes + trials, amostras, canais, características


(60, 41, 2, 4)

In [42]:
s = X.shape
X = X.reshape(s[0] * s[1], s[2] * s[3])
print('X final:', X.shape)
# salvamento dos dados
np.save('temp_data/khushaba_feat.npy', X)

X final: (2460, 8)


In [43]:
# criação dos rótulos

# 1,1,1,1,1,1,1,1,1,1,...,2,2,2,2,2,2,2,2,2,2,...,3,...

y = [[i] * int(X.shape[0] / 10) for i in range(10)]
y = np.array(y).flatten()

print('Shape dos rótulos:', y.shape)
# salvamento dos rótulos
np.save('temp_data/khushaba_lab.npy', y)

Shape dos rótulos: (2460,)


## Aplicação do classificador SVM

O primeiro passo é dividir os dados em conjuntos de treinamento e teste. Para isso, utilizamos a ferramenta `train_test_split` da biblioteca `scikit-learn`. Após esta divisão, criamos um modelo SVM com os dados de treino, utilizando os parâmetros padrões do classificador e o testamos (com os dados de teste).

In [44]:
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC

# dividindo as porções de dados em treino e teste (70 e 30% respectivamente)
# com embaralhamento sempre ativo (shuffle=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, shuffle=True)

In [45]:
# modelo de classificador com os parâmetros padrões

clf = SVC(kernel='rbf', gamma='scale')

# criando o modelo de classificação com os dados de treino
clf.fit(X_train, y_train)

In [46]:
# aplicando o classificador nos dados de teste
res = clf.predict(X_test)

# obtendo e ajustando os resultados 
tot_hit = sum([1 for i in range(len(res)) if res[i] == y_test[i]])
print('Acurácia: {:.2f}%'.format(tot_hit / X_test.shape[0] * 100))

Acurácia: 62.87%
