## Definição do *dataset*

O *dataset utilizado será o "TOWARDS LIMB POSITION INVARIANT MYOELECTRIC PATTERN RECOGNITION USING TIME-DEPENDENT SPECTRAL FEATURES" [1]. Maiores informações podem ser vistas no site: https://www.rami-khushaba.com/electromyogram-emg-repository.html

Neste *dataset* existem 5 posições e 8 movimentos. Algumas questões de projetos foram levadas em consideração:
1. A primeira posição (P1) possui 40.000 *samples* e todas as outras possuem 20.000 *samples*. Desta forma, a posição 1 foi **excluída** do experimento de teste;
2. Cada posição possui 5 tentativas. Desta forma, serão utilizadas todas as tentativas do mesmo movimento como uma soma total de *samples* (todas as tentativas serão concatenadas);
3. Como este experimento resultará em 4 posições e 8 movimentos, será considerado primeiramente um experimento com 32 classes (4 * 8) e um segundo experimento com 8 classes (somando/dispresando as posições do braço).

[1] R. N. Khushaba, Maen Takruri, Jaime Valls Miro, and Sarath Kodagoda, "Towards limb position invariant myoelectric pattern recognition using time-dependent spectral features", Neural Networks, vol. 55, pp. 42-58, 2014. https://doi.org/10.1016/j.neunet.2014.03.010

### Separação das classes

In [1]:
from glob import glob

# exclusão dos arquivos com "Pos1" no nome
arquivos = glob("datasets/EMG_data/Pos[2-5]*.txt")
# índices para as 32 classes considerando as posições de 2 à 5
cl32 = {
    "Pos2_HandOpen": list(), "Pos3_HandOpen": list(), "Pos4_HandOpen": list(), "Pos5_HandOpen": list(),
    "Pos2_HandRest": list(), "Pos3_HandRest": list(), "Pos4_HandRest": list(), "Pos5_HandRest": list(),
    "Pos2_ObjectGrip": list(), "Pos3_ObjectGrip": list(), "Pos4_ObjectGrip": list(), "Pos5_ObjectGrip": list(),
    "Pos2_PichGrip": list(), "Pos3_PichGrip": list(), "Pos4_PichGrip": list(), "Pos5_PichGrip": list(),
    "Pos2_WristExten": list(), "Pos3_WristExten": list(), "Pos4_WristExten": list(), "Pos5_WristExten": list(),
    "Pos2_WristFlex": list(), "Pos3_WristFlex": list(), "Pos4_WristFlex": list(), "Pos5_WristFlex": list(),
    "Pos2_WristPron": list(), "Pos3_WristPron": list(), "Pos4_WristPron": list(), "Pos5_WristPron": list(),
    "Pos2_WristSupi": list(), "Pos3_WristSupi": list(), "Pos4_WristSupi": list(), "Pos5_WristSupi": list(),
}
# índices para as 8 classes desconsiderando as posições de 2 à 5
cl08 = {
    "HandOpen": list(),
    "HandRest": list(),
    "ObjectGrip": list(),
    "PichGrip": list(),
    "WristExten": list(),
    "WristFlex": list(),
    "WristPron": list(),
    "WristSupi": list(),
}

## Carregamento do *dataset*

Neste trecho de código, todos as amostras serão dividas entre os conjuntos de calsses específicas

In [2]:
import re

for arquivo in arquivos:
    trial_file = open(arquivo)
    nome = trial_file.name.split('/')[-1].split('.')[0]
    trial = list()
    for linha in trial_file.readlines():
        # foi necessário substituir os números "int" por "float"
        linha = re.sub(r"(?<=\ )(\d)(?=\ )", r"\1.0", linha)
        # casamento da linha com 7 pontos (1 para cada eletrodo)
        sample = [float(s) for s in re.findall(r"\-?\d\.\d+", linha)]
        trial.append(sample)
    cl08["{}".format(nome[5:-3])].append(trial)
    cl32["Pos{}{}".format(nome[3], nome[4:-3])].append(trial)

Agora será realizado a divisão dos dados e suas respectivas classes em sequência, formando dados em `numpy.array` para X1 (dados EMG das 8 classes), y1 (*labels* das 8 classes), X2 (dados EMG das 32 classes), y2 (*labels* das 32 classes)

In [3]:
import numpy as np
from sklearn.preprocessing import LabelEncoder

X1 = np.array(list(cl08.values()))
X2 = np.array(list(cl32.values()))
# transformando labels categóricos em numéricos
le = LabelEncoder()
y1 = np.array(le.fit_transform(list(cl08.keys())))
y2 = np.array(le.fit_transform(list(cl32.keys())))
# shape: [8 classes, 24 trials, 20000 samples, 7 eletrodos]
print(X1.shape)
# shape: [32 classes, 6 trials, 20000 samples, 7 eletrodos]
print(X2.shape)
print(y1)
print(y2)

X1 = X1.swapaxes(2, 3)
X2 = X2.swapaxes(2, 3)
print(X1.shape)
print(X2.shape)

(8, 24, 20000, 7)
(32, 6, 20000, 7)
[0 1 2 3 4 5 6 7]
[ 0  8 16 24  1  9 17 25  2 10 18 26  3 11 19 27  4 12 20 28  5 13 21 29
  6 14 22 30  7 15 23 31]
(8, 24, 7, 20000)
(32, 6, 7, 20000)


## Segmentação dos dados ###

Com amostras divididas em 10, 20, 40, 50, 80 e 90 partes e com tamanhos da sobreposição de ~10%, ~20%, ~30%, ~40%, ~50%, ~70%, ~90%:

### Informações para segmentação nos dados no domínio do tempo:

##### ~10% de sobreposição:
* 10 partes = (salto = 1848, segmento = 2048);
* 20 partes = (salto = 992,  segmento = 1128);
* 40 partes = (salto = 496,   segmento = 562);
* 50 partes = (salto = 398,   segmento = 436);
* 80 partes = (salto = 248,   segmento = 272);
* 90 partes = (salto = 220,   segmento = 244).

##### ~20% de sobreposição:
* 10 partes = (salto = 1920, segmento = 2400);
* 20 partes = (salto = 986,  segmento = 1240);
* 40 partes = (salto = 488,  segmento =  608);
* 50 partes = (salto = 396,  segmento =  492);
* 80 partes = (salto = 248,  segmento =  312); 
* 90 partes = (salto = 276,  segmento =  220).

##### ~30% de sobreposição:
* 10 partes = (salto = 1880, segmento = 2648);
* 20 partes = (salto = 966,  segmento = 1380);
* 40 partes = (salto = 492,  segmento =  702);
* 50 partes = (salto = 392,  segmento =  560);
* 80 partes = (salto = 248,  segmento =  352); 
* 90 partes = (salto = 220,  segmento =  312);

##### ~40% de sobreposição:
* 10 partes = (salto = 1766,segmento = 2944);
* 20 partes = (salto = 924, segmento = 1540);
* 40 partes = (salto = 484, segmento = 808 );
* 50 partes = (salto = 394, segmento = 656 );
* 80 partes = (salto = 246, segmento = 410 ); 
* 90 partes = (salto = 220, segmento = 366 );

##### ~50% de sobreposição:
* 10 partes = (salto = 1792, segmento = 3584);
* 20 partes = (salto = 928,  segmento = 1856);
* 40 partes = (salto = 480,  segmento = 960 );
* 50 partes = (salto = 392,  segmento = 784 );
* 80 partes = (salto = 246,  segmento = 492 ); 
* 90 partes = (salto = 218,  segmento = 436 );

##### ~70% de sobreposição:
* 10 partes = (salto = 1536, segmento = 5120);
* 20 partes = (salto = 864,  segmento = 2880);
* 40 partes = (salto = 470,  segmento = 1568);
* 50 partes = (salto = 380,  segmento = 1272);
* 80 partes = (salto = 242,  segmento = 808 ); 
* 90 partes = (salto = 216,  segmento = 720 );

##### ~90% de sobreposição:
* 10 partes = (salto = 1024, segmento = 10240);
* 20 partes = (salto = 686,  segmento = 6854 );
* 40 partes = (salto = 404,  segmento = 4032 );
* 50 partes = (salto = 336,  segmento = 3360 );
* 80 partes = (salto = 224,  segmento = 2240 ); 
* 90 partes = (salto = 202,  segmento = 2016 ).

In [4]:
print(X1.shape)
# definição do salto e do tamanho do segmento (segmento - salto = sobreposição)
salto = 864
segmento = 2880
n_win = int((X1.shape[-1] - segmento) / salto) + 1
ids = np.arange(n_win) * salto
x_8 = np.array([X1[:,:,:,k:(k + segmento)] for k in ids]).transpose(1, 2, 3, 0, 4)
print(x_8.shape)

print(X2.shape)
# definição do salto e do tamanho do segmento (segmento - salto = sobreposição)
n_win = int((X2.shape[-1] - segmento) / salto) + 1
ids = np.arange(n_win) * salto
x_32 = np.array([X2[:,:,:,k:(k + segmento)] for k in ids]).transpose(1, 2, 3, 0, 4)
print(x_32.shape)

(8, 24, 7, 20000)
(8, 24, 7, 20, 2880)
(32, 6, 7, 20000)
(32, 6, 7, 20, 2880)


### Caracteristicas no domínio do tempo:

* `Variance of EMG (VAR)`: 
    > $\frac{1}{N-1}\sum_{i=1}^{N}x_i^2$
* `Root Mean Square (RMS)`:
    > $\sqrt{\frac{1}{N-1}\sum_{i=1}^{N}|x_i|^2}$
* `Mean Absolute Value (MAV)`:
    > $\frac{1}{N}\sum_{i=1}^{N}|x_i|$
* `Zero Crossing (ZC)`:
    > $\sum_{i=1}^{N}sgn(-x_i x_{i+1})$
  onde sgn(X) = 1 se X > 0 | 0 caso contrário
* `Waveform length (WL)`:
    > $\sum_{i=1}^{N-1}|x_i-x_{i+1}|$
* `Simple Square Integral (SSI)`:
    > $\sum_{i=1}^{N}x_i^2$

In [74]:
#Features 
feats_8 = list()
feats_32 = list()

# VAR
var_8  = np.sum(x_8 ** 2, axis=-1) / (np.prod(x_8.shape[:-1]) - 1)
var_32 = np.sum(x_32 ** 2, axis=-1) / (np.prod(x_32.shape[:-1]) - 1)
feats_8.append(var_8)
feats_32.append(var_32)
#print(var_8.shape)
#print(var_32.shape)

# RMS
rms_8  = np.sqrt(np.sum(np.abs(x_8) ** 2, axis=-1) / (np.prod(x_8.shape[:-1]) - 1))
rms_32 = np.sqrt(np.sum(np.abs(x_32) ** 2, axis=-1) / (np.prod(x_32.shape[:-1]) - 1))
feats_8.append(rms_8)
feats_32.append(rms_32)
#print(rms_8.shape)
#print(rms_32.shape)

# MAV
mav_8  = np.sum(np.abs(x_8), axis=-1) / (np.prod(x_8.shape[:-1]))
mav_32 = np.sum(np.abs(x_32), axis=-1) / (np.prod(x_32.shape[:-1]))
feats_8.append(mav_8)
feats_32.append(mav_32)
#print(mav_8.shape)
#print(mav_32.shape)

# ZC
def zc(x):
    for ind, value in np.ndenumerate(x):
        i, j, k, l, m = ind
        if (m+1 < x.shape[-1]): x[ind] = (1 if (((value*(-1))*x[i, j, k, l, m+1]) > 0) else 0)
        else:
            x[ind] = 0
    return x

#zc_8 = zc(x_8)                    #Descomentar para executar ZC na primeira vez
#zc_8 = np.sum(zc_8, axis=-1)      #Descomentar para executar ZC (demorando um pouco..)
#print(zc_8.shape)
#zc_32 = zc(x_32)                  #Descomentar para executar ZC
#zc_32 = np.sum(zc_32, axis=-1)    #Descomentar para executar ZC
#print(zc_32.shape)

#WL
wl_8 = np.sum(np.abs(np.diff(x_8, axis=-1)), axis=-1)
wl_32 = np.sum(np.abs(np.diff(x_32, axis=-1)), axis=-1)
feats_8.append(wl_8)
feats_32.append(wl_32)
#print(wl_8.shape)
#print(wl_32.shape)

#SSI
ssi_8 = np.sum(x_8 ** 2, axis=-1)
ssi_32 = np.sum(x_32 ** 2, axis=-1)
feats_8.append(ssi_8)
feats_32.append(ssi_32)
#print(ssi_8.shape)
#print(ssi_32.shape)
print(np.shape(feats_8))
print(np.shape(feats_32))

(5, 8, 24, 7, 20)
(5, 32, 6, 7, 20)


##### Transformação para domínio da frequencia

##### ~10% de sobreposição:
* 10 partes = (nperseg = 2560, noverlap = 256);
* 20 partes = (nperseg = 1216, noverlap = 128);
* 40 partes = (nperseg = 586,   noverlap = 60);
* 50 partes = (nperseg = 464,   noverlap = 48);
* 80 partes = (nperseg = 282,   noverlap = 28);
* 90 partes = (nperseg = 250,   noverlap = 24).

##### ~20% de sobreposição:
* 10 partes = (nperseg = 2816, noverlap = 564);
* 20 partes = (nperseg = 1344, noverlap = 268);
* 40 partes = (nperseg = 656,  noverlap = 132);
* 50 partes = (nperseg = 520,  noverlap = 104);
* 80 partes = (nperseg = 318,   noverlap = 64);
* 90 partes = (nperseg = 282,   noverlap = 56).

##### ~30% de sobreposição:
* 10 partes = (nperseg = 3200, noverlap = 960);
* 20 partes = (nperseg = 1536, noverlap = 460);
* 40 partes = (nperseg = 736,  noverlap = 220);
* 50 partes = (nperseg = 592,  noverlap = 178);
* 80 partes = (nperseg = 362,  noverlap = 108);
* 90 partes = (nperseg = 324,   noverlap = 98).

##### ~40% de sobreposição:
* 10 partes = (nperseg = 3712, noverlap = 1484);
* 20 partes = (nperseg = 1792,  noverlap = 716);
* 40 partes = (nperseg = 864,   noverlap = 236);
* 50 partes = (nperseg = 688,   noverlap = 276);
* 80 partes = (nperseg = 424,   noverlap = 170);
* 90 partes = (nperseg = 376,   noverlap = 150).

##### ~50% de sobreposição:
* 10 partes = (nperseg = 4480, noverlap = 2240);
* 20 partes = (nperseg = 2176, noverlap = 1088);
* 40 partes = (nperseg = 1048,  noverlap = 524);
* 50 partes = (nperseg = 824,   noverlap = 412);
* 80 partes = (nperseg = 512,   noverlap = 256);
* 90 partes = (nperseg = 452,   noverlap = 226).

##### ~70% de sobreposição:
* 10 partes = (nperseg = 7680, noverlap = 5376);
* 20 partes = (nperseg = 3584, noverlap = 2508);
* 40 partes = (nperseg = 1728, noverlap = 1210);
* 50 partes = (nperseg = 1376,  noverlap = 964);
* 80 partes = (nperseg = 848,   noverlap = 594);
* 90 partes = (nperseg = 752,   noverlap = 526).

##### ~90% de sobreposição:
* 10 partes = (nperseg = , noverlap = );
* 20 partes = (nperseg = , noverlap = );
* 40 partes = (nperseg = ,   noverlap = );
* 50 partes = (nperseg = ,   noverlap = );
* 80 partes = (nperseg = ,   noverlap = );
* 90 partes = (nperseg = 2264,   noverlap = 2038).

In [214]:
from scipy.signal import stft

nperseg = 752
noverlap = 526

print(X1.shape)
_, _, w = stft(X1, fs=4000, nperseg=nperseg, noverlap=noverlap)
w = np.swapaxes(w, 3, 4)
print(w.shape)

print(X2.shape)
_, _, z = stft(X2, fs=4000, nperseg=nperseg, noverlap=noverlap)
z = np.swapaxes(z, 3, 4)
print(z.shape)

(8, 24, 7, 20000)
(8, 24, 7, 90, 377)
(32, 6, 7, 20000)
(32, 6, 7, 90, 377)


### Características no domínio da frequencia

* `Frequency Median (FMD)`:
    > $\frac{1}{2}\sum_{i=1}^{M}PSD$
* `Modified Median Frequency (MMDF)`:
    > $\frac{1}{2}\sum_{i=1}^{M}A_j$
* `Mean Power (MP)`:
    > $\frac{1}{M}\sum_{i=1}^{M}P_i$
* `Peak Frequency (PKF)`:
    > $max(P_i), i=1,...,M$

In [215]:
# definição da função PSD para o sinal no domínio da frequência
feats_8 = list()
label_8 = list()
feats_32 = list()
label_32 = list()

def PSD(x):
    return np.sqrt(np.abs(x))

# FMD
fmd_8 = np.sum(PSD(w), axis=-1) / 2
fmd_32 = np.sum(PSD(z), axis=-1) / 2
feats_8.append(fmd_8)
label_8.append("FMD_8")
feats_32.append(fmd_32)
label_32.append("FMD_32")
#print(fmd_8.shape)
#print(fmd_32.shape)

# MMDF
mmdf_8 = np.sum(np.abs(w), axis=-1) / 2
mmdf_32 = np.sum(np.abs(z), axis=-1) / 2
feats_8.append(mmdf_8)
label_8.append("MMDF_8")
feats_32.append(mmdf_32)
label_32.append("MMDF_32")
#print(mmdf_8.shape)
#print(mmdf_32.shape)

#MP
mp_8 = np.real(np.sum(w, axis=-1) / (np.prod(w.shape[:-1]))) 
mp_32 = np.real(np.sum(z, axis=-1) / (np.prod(z.shape[:-1])))
feats_8.append(mp_8)
label_8.append("MP_8")
feats_32.append(mp_32)
label_32.append("MP_32")
#print(mp_8.shape)
#print(mp_32.shape)

#PKF
pkf_8 = np.real(np.max(w, axis=-1))
pkf_32 = np.real(np.max(z, axis=-1))
feats_8.append(pkf_8)
label_8.append("PKF_8")
feats_32.append(pkf_32)
label_32.append("PKF_32")
#print(pkf_8.shape)
#print(pkf_32.shape)
print(np.shape(feats_8))
print(np.shape(feats_32))

print(label_8)

(4, 8, 24, 7, 90)
(4, 32, 6, 7, 90)
['FMD_8', 'MMDF_8', 'MP_8', 'PKF_8']


### Vetor de características

In [216]:
from itertools import combinations

feats_8 = np.array(feats_8)
feats_32 = np.array(feats_32)
combination = list()
labels = list()


for k in range(1, feats_8.shape[0]+1):
    combination.append([item for item in combinations(feats_8, k)])
    labels.append([item for item in combinations(label_8, k)])
#print(np.shape(combination[3]))
#print(labels[3])

###### Conjuntos de características:
O código acima está gerando todas as possíveis combinações de características possível com o vetor de características. Para prosseguir é necessário definir 'i' e 'j' para informar o conjunto de caracteristicas desejado:

* i = 0 trás os conjuntos com apenas 1 característica (4 disponíveis, selecionados com j de 0-3);
* i = 1 trás os conjuntos com 2 características (6 disponíveis, selecionados com j de 0-5);
* i = 2 trás os conjuntos com 3 características (4 disponíveis, selecionados com j de 0-3);
* i = 3 trás o conjunto com 4 características (1 disponível, selecionado com j = 0).

In [225]:
i = 1
j = 0

print(labels[i][j])
features = list()
for feature in (combination[i][j]):
    feature = np.array(feature)
    feature = feature.transpose(0, 1, 3, 2)
    feature = feature.reshape(feats_8.shape[1] * feats_8.shape[2] * feats_8.shape[-1], 7)
    print('Feature: {}'.format(feature), feature.shape)
    features.append(feature)
    
print(np.shape(features))

X = np.concatenate(features, axis=-1)
X.shape

#features = list()
#for feature in (fmd_32, mp_32):
#    feature = feature.transpose(0, 1, 3, 2)
#    feature = feature.reshape(var_32.shape[0] * var_32.shape[1] * var_32.shape[-1], 7)
#    print('Feature: {}'.format(feature), feature.shape)
#    features.append(feature)
#
#X = np.concatenate(features, axis=-1)
#X.shape

('FMD_8', 'MMDF_8')
Feature: [[ 2.76323758  3.52112934  9.94426616 ...  9.49723421  3.54607588
   3.62889618]
 [ 3.02041296  4.12548136 10.66635833 ...  8.77859921  3.91902
   3.18805993]
 [ 3.00819062  3.97240472 10.21424031 ...  8.14556518  3.98409807
   2.95984028]
 ...
 [ 2.8793787   3.99035218  9.04965007 ...  5.90701622  3.44562055
   2.87409651]
 [ 2.92746818  4.36327672 12.54447493 ...  6.27341908  4.53955258
   3.23712201]
 [ 2.10985676  3.68935608  9.73266367 ...  4.46143762  3.57066271
   2.52886543]] (17280, 7)
Feature: [[0.08536189 0.1383412  1.07068966 ... 1.00751568 0.19556874 0.11633081]
 [0.11567221 0.25605113 1.5677787  ... 1.07299435 0.24137914 0.11080647]
 [0.11056268 0.24988913 1.6516249  ... 1.13385452 0.26091177 0.11136966]
 ...
 [0.09820147 0.24634067 1.32486938 ... 0.57146894 0.16761114 0.10559959]
 [0.10839831 0.23216726 1.51862026 ... 0.68733166 0.19272991 0.11586462]
 [0.05568333 0.14745475 0.68785415 ... 0.33703438 0.09558317 0.06277478]] (17280, 7)
(2, 172

(17280, 14)

Vetor de labels

In [226]:
y = np.array([[str(i)] * int(X.shape[0] / 8) for i in range(8)]) #switch 8 - 32
y = y.reshape(y.shape[0] * y.shape[1])
y.shape

(17280,)

## Classificador SVM

In [263]:
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC

# treino e teste em 70 e 30% respectivamente
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, shuffle=True)

# testar outros classificadores e definir parametrização
clf = SVC(gamma='auto')
clf.fit(X_train, y_train)

SVC(gamma='auto')

Rotina Simples

In [264]:
res = clf.predict(X_test)
    
tot_hit = sum([1 for i in range(len(res)) if res[i] == y_test[i]])
print('Acurácia: {:.2f}%'.format(tot_hit / X_test.shape[0] * 100))

Acurácia: 96.59%


### Resultados parciais com as 8 classe, 4 características e ~10% de sobreposição:

###### 10 partes: 93.23%
###### 20 partes: 91.75%
###### 40 partes: 91.88%
###### 50 partes: 90.31%
###### 80 partes: 87.33%
###### 90 partes: 85.47%

### Resultados parciais com as 32 classe, 4 características e ~10% de sobreposição:

###### 10 partes: 82.47%
###### 20 partes: 84.90%
###### 40 partes: 82.55%
###### 50 partes: 78.82%
###### 80 partes: 73.83%
###### 90 partes: 70.93%