## Validação dos dados EOG

Neste notebook está incluído os seguintes passos:
- Aplicação de características;
- Criação do vetor de características;
- Normalização de dados;
- Seleção de características;
- Classificação dos dados.

Uma característica é uma propriedade individual mensurável ou característica de um fenômeno que está sendo observado. Em nosso caso de EOG, uma característica pode ser extraída no domínio do tempo ou no domínio da frequência. As características a seguir foram retiradas do artigo *EMG Feature Extraction for Tolerance of White Gaussian Noise* \[1\].

#### Domínio do tempo

1. Willison Amplitude (WAMP)

    > $ \sum_{i=1}^{N-1}f(|x_i - x_{i+1}|) $
    
    > $ f(x) = \begin{cases} 1 & \text{if } x \gt threshold \\ 0 & \text{otherwise} \end{cases} $

2. Variance of EMG (VAR)

    > $ \frac{1}{N-1}\sum_{i=1}^{N}x_i^2 $

3. Root Mean Square (RMS)

    > $ \sqrt{\frac{1}{N}\sum_{i=1}^{N}|x_i|^2} $

4. Waveform Length (WL)
    
    > $ \sum_{i=1}^{N-1}|x_{i+1} - x_i| $

5. Zero Crossing (ZC)

    > $ \sum_{i=1}^{N}sgn(x_i) $
    
    > $ sgn(x) = \begin{cases} 1 & \text{if } x_i * x_{i+1} \leq 0 \\ 0 & \text{otherwise} \end{cases} $

#### Domínio da frequência

1. Median Frequency (FMD): energia média do sinal no domínio da frequência

    > $ \frac{1}{2}\sum_{j=1}^{M}PSD_j $

2. Mean Frequency (FMN)

    > $\sum_{j=1}^{M}f_j PSD_j / \sum_{j=1}^{M}PSD_j$
    
    > $ f_j = j * SampleRate / 2 * M $

3. Modified Median Frequency (MMDF)

    > $ \frac{1}{2}\sum_{j=1}^{M}A_j $
    
    > $ A_j = Amplitude\ do\ espectro\ j $

4. Modified Frequency Mean (MMNF)

    > $ \sum_{j=1}^{M}f_jAj / \sum_{j=1}^{M}Aj $


\[1\] Phinyomark, Angkoon & Limsakul, Chusak & Phukpattaranont, P.. (2008). EMG Feature Extraction for Tolerance of White Gaussian Noise.
[Disponível neste link](https://www.researchgate.net/publication/263765853_EMG_Feature_Extraction_for_Tolerance_of_White_Gaussian_Noise)

**Tarefa 1**: Descrever as características de acordo com o artigo citado e outros disponíveis relacionados. O que está querendo "ser visto" em cada característica? Qual é o significado matemático de cada uma delas?

**Domínio do tempo**
- Willison Amplitude (WAMP): é uma medida estatística que quantifica a quantidade de variação absoluta em uma série temporal. Ela é frequentemente usada em análise de séries temporais para identificar mudanças abruptas ou picos. Essencialmente, o WAMP é calculado somando as diferenças absolutas entre pontos consecutivos na série temporal, excluindo o primeiro ponto, já que não há ponto anterior para comparar. Significado matemático: $N$ é o número total de pontos na série temporal; $x_i$​ é o valor da série temporal no tempo $t$; $x_{i−1​}$ é o valor da série temporal no tempo $i-1$ e $∣\cdot∣$ denota o valor absoluto.

- Variance of EMG (VAR): a variância (VAR) da amplitude do sinal eletromiográfico é uma medida estatística que quantifica a dispersão dos valores de amplitude no sinal EMG. A variância é uma medida de quão distantes os valores individuais do sinal estão da média. Se a variância for alta, isso indica que os valores individuais estão mais dispersos, enquanto uma variância baixa indica que os valores estão mais próximos da média. Significado matemático: $N$ e $x_i$ são, respectivamente, o comprimento e o enésimo valor amostral do sinal EMG.

- Root Mean Square (RMS): a raiz quadrada da média dos quadrados é uma medida estatística utilizada para representar a magnitude de um conjunto de valores. No contexto de sinais, como o sinal eletromiográfico (EMG) ou de áudio, o RMS é frequentemente usado para quantificar a amplitude eficaz do sinal. Significado matemático: $N$ e $x_i$ são, respectivamente, o comprimento e o enésimo valor amostral do sinal EMG.

- Waveform Length (WL): é uma medida que quantifica a complexidade ou o comprimento total de uma forma de onda. É frequentemente utilizada em análises de sinais, como sinais eletromiográficos (EMG) ou outros tipos de sinais biomédicos. A fórmula envolve calcular a soma das diferenças absolutas entre amostras consecutivas na forma de onda. Essa medida é sensível às variações locais na amplitude da forma de onda e pode ser usada para avaliar a complexidade ou rugosidade do sinal. Quanto mais irregularidades ou mudanças abruptas houver na forma de onda, maior será o valor do Waveform Length. Significado matemático: $N$ e $x_i$ são, respectivamente, o comprimento e o enésimo valor amostral do sinal EMG.

- Zero Crossing (ZC): é uma medida utilizada para quantificar a frequência de mudanças de polaridade em um sinal, como uma forma de onda. Em sinais de áudio, por exemplo, um cruzamento por zero ocorre sempre que o sinal muda de positivo para negativo ou vice-versa. Em termos simples, um zero crossing é o ponto em que a amplitude de um sinal muda de sinal. Significado matemático: $N$ é o número total de amostras no sinal; $x_i$ representa cada amostra individual no sinal; $sign(x_i)$ é a função de sinal, que retorna $-1$ se $x_i$​ for negativo, $0$ se for zero e $1$ se for positivo.


**Domínio da frequência**
- Median Frequency (FMD): é a frequência na qual o espectro é dividido em duas regiões médias. Significado matemático: o $PSD$ aqui é entendido como $|w^2|$. 

- Mean Frequency (FMN): é uma medida da frequência média ponderada no espectro de potência do sinal. Ela é frequentemente usada para caracterizar a distribuição de energia em um sinal ao longo das diferentes frequências, fornecendo uma medida de centralidade das frequências predominantes no sinal. Significado matemático: o $PSD$ é entendido como $|w^2|$ e $f_j$ é o espectro de frequência no compartimento de frequência $j$.

- Modified Median Frequency (MMDF): é a frequência na qual o espectro é dividido em duas regiões com amplitude igual. Significado matemático: $A_j$ é o espectro de amplitude do EMG diante da frequência $j$.

- Modified Frequency Mean (MMNF): é estimado como a soma do produto do espectro de amplitude e frequência dividida pela soma total da intensidade do espectro. Significado matemático: $A_j$ e $f_j$ são o espectro de amplitude EMG e o espectro de frequência no compartimento de frequência $j$, respectivamente.


#### Aplicando as características

É necessário implementar as características, geralmente em formato de funções ou métodos, para que seja possível aplicar tais funções aos dados de entrada e obter as características resultantes. A seguir temos a implementação das características `VAR` & `RMS` (domínio do tempo) e `FDM` & `MMDF` (domínio da frequência).

**Tarefa 2**: Implemente todas as características apresentadas neste tutorial em formato de funções. Sinta-se livre também para buscar e implementar características além das apresentadas, citando as fontes de tais características.

In [126]:

from math import prod
import numpy as np

# funções auxiliares
def PSD(w):
    ''' definição da função PSD para o sinal no domínio da frequência '''
    return np.abs(w) ** 2

def func_j(w):
    sample_rate = np.arange(1, w.shape[-1]+1) * 200
    return sample_rate / 2 * w.shape[-1]

# funções de extração de características
def wamp(time, threshold):
    return np.sum(np.abs(np.diff(time)) > threshold, axis=-1)

def var(x):
    return np.sum(x ** 2, axis=-1) / (np.prod(x.shape) - 1)

def rms(x):
    return np.sqrt(np.sum(np.abs(x) ** 2, axis=-1) / (np.prod(x.shape) - 1))

def wl(x):
    return np.sum(np.abs(np.diff(x, axis=-1)), axis=-1)

def zc(x):
    return np.count_nonzero(np.diff(np.sign(x), axis=-1) != 0, axis=-1)

def log_det(x):
    from math import e
    return e ** (np.sum(np.log10(np.abs(x)), axis=-1) /  np.prod(x.shape))

def fmd(w):
    return np.sum(PSD(w), axis=-1) / 2

def fmn(w):
    return  np.sum(func_j(w)* PSD(w), axis=-1)/ fmd(w) * 2

def mmdf(w):
    return np.sum(np.abs(w), axis=-1) / 2

def mmnf(w):
    return np.sum(func_j(w) * np.abs(w),  axis=-1) / mmdf(w) * 2


#### Vetor de características

Ao final da implementação e seleção das características, deve ser escolhida as características e então teremos um vetor com todas elas implementadas.

O vetor de características estará organizado da seguinte forma (exemplo p/ VAR, RMS, RDM e MMDF) (1 e 2 porque são dois eletrodos)

| ID sample | VAR1 | RMS1 | FMD1 | MMDF1 | VAR2 | RMS2 | FMD2 | MMDF2 | Classe |
|:---------:|:----:|:----:|:----:|:-----:|------|------|------|-------|:------:|
|     1     |  v1  |  v1  |  v1  |   v1  | v1   | v1   | v1   | v1    |    0   |
|     2     |  v2  |  v2  |  v2  |   v2  | v2   | v2   | v2   | v2    |    0   |
|    ...    |  ... |  ... |  ... |  ...  | ...  | ...  | ...  | ...   |   ...  |
|     N     |  vN  |  vN  |  vN  |   vN  | vN   | vN   | vN   | vN    |    7   |


### Participante 1
#### Implementação do vetor



In [127]:

# Carregando dados do participante 1
x1 = np.load("datasets/p1_time.npy")
w1 = np.load("datasets/p1_freq.npy")

# Extraindo características do participante 1
data_wamp1 = wamp(x1, np.median(x1))
data_var1 = var(x1)
data_rms1 = rms(x1)
data_wl1 = wl(x1)
data_zc1 = zc(x1)

data_fmd1 = fmd(w1)
data_fmn1 = fmn(w1)
data_mmdf1 = mmdf(w1)
data_mmnf1 = mmnf(w1)

print("Shape dos vetores orinais", x1.shape, w1.shape)

print(data_wamp1.shape, data_var1.shape, data_rms1.shape, data_wl1.shape, data_zc1.shape, data_fmd1.shape, data_fmn1.shape, data_mmdf1.shape, data_mmnf1.shape)

Shape dos vetores orinais (28, 2, 8, 64) (28, 2, 8, 33)
(28, 2, 8) (28, 2, 8) (28, 2, 8) (28, 2, 8) (28, 2, 8) (28, 2, 8) (28, 2, 8) (28, 2, 8) (28, 2, 8)


In [128]:
# União do vetor de características inicial (concatenação de data) para o participante 1

features = np.array([data_wamp1, data_var1, data_rms1, data_wl1, data_zc1, data_fmd1, data_fmn1, data_mmdf1, data_mmnf1])
features.shape

(9, 28, 2, 8)

In [129]:
# Organização das dimensões
features = features.transpose(1, 3, 0, 2)

# Criar vetor de características definitivo
features = features.reshape(features.shape[0] * features.shape[1], features.shape[2] * features.shape[3])

features.shape

(224, 18)

In [130]:
labels_str = ['dir', 'esq', 'cima', 'baixo', 'cima', 'baixo',
'baixo', 'esq', 'dir', 'baixo', 'dir', 'dir', 'esq', 'cima',
'baixo', 'cima', 'esq', 'dir', 'cima', 'esq', 'baixo', 'esq',
'dir', 'esq', 'cima', 'dir', 'cima', 'baixo']

# transformando para numérico
lab_dict = {'dir': 0, 'esq': 1, 'cima': 2, 'baixo': 3}
labels_num = [lab_dict[item] for item in labels_str]

print(labels_num)

# criação do vetor de labels final
y = np.repeat(labels_num, int(features.shape[0] / len(labels_num)))

[0, 1, 2, 3, 2, 3, 3, 1, 0, 3, 0, 0, 1, 2, 3, 2, 1, 0, 2, 1, 3, 1, 0, 1, 2, 0, 2, 3]


#### Normalização dos dados

In [131]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
X = scaler.fit_transform(features)
y = scaler.fit_transform(y.reshape(-1, 1))

#### Classificação utilizando SVM padrão

In [132]:
# Utilizando SVM padrão
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
import numpy as np

# Criando os rótulos usando np.repeat
y = np.repeat(labels_num, int(features.shape[0] / len(labels_num)))

# Divisão dos dados em conjunto de treino e teste (opcional)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando e treinando o modelo SVM
svm_model = SVC(kernel='linear')  # Você pode escolher o tipo de kernel desejado
svm_model.fit(X_train, y_train)

# Avaliando o modelo (opcional)
accuracy = svm_model.score(X_test, y_test)
print(f'Acurácia do modelo: {accuracy * 100:.2f}%')

Acurácia do modelo: 26.67%


#### Classificação utilizando Grid Search e seleção de características

In [133]:
# Utilizando Grid Search com SVM e seleção de características

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.feature_selection import SelectKBest, f_regression
from sklearn.preprocessing import StandardScaler
from sklearn import svm, metrics
import numpy as np

max_k = X.shape[1]
start = int(max_k / 2)
end = max_k + 1

best_acc = 0
best_params = None

for k in range(start, end):
    X_new = SelectKBest(f_regression, k=k).fit_transform(X, y)
    x_train, x_test, y_train, y_test = train_test_split(X_new, y, test_size=0.25, random_state=42)

    param_grid = [
        {'C': [0.1, 1, 10, 100, 1000], 'kernel': ['linear']},
        {'C': [0.1, 1, 10, 100], 'gamma': [1, 0.1, 0.01, 0.001], 'kernel': ['linear', 'rbf', 'poly']},
    ]

    grid = GridSearchCV(svm.SVC(), param_grid, cv=5)
    grid.fit(x_train, y_train)

    # Predição
    y_pred = grid.predict(x_test)
    current_acc = metrics.accuracy_score(y_test, y_pred)

    if current_acc > best_acc:
        best_acc = current_acc
        best_params = grid.best_params_

print("Best accuracy:", best_acc)
print("Best parameters:", best_params)


Best accuracy: 0.39285714285714285
Best parameters: {'C': 10, 'gamma': 1, 'kernel': 'poly'}


#### Classificação utilizando validação cruzada

In [134]:
from sklearn.metrics import accuracy_score
from sklearn.model_selection import StratifiedKFold

# Dividindo os dados normalizados em 4 conjuntos (folds) para validação cruzada
cv = StratifiedKFold(n_splits=4)

# Lista para armazenar as acurácias para cada fold
acc_scores = []

# Loop pelos folds
for train_idx, test_idx in cv.split(X, y):
    # Divida os dados normalizados em conjunto de treinamento e conjunto de teste para este fold
    X_train, X_test = X[train_idx], X[test_idx]
    y_train, y_test = y[train_idx], y[test_idx]

    # Treine o modelo SVM no conjunto de treinamento
    svm_model.fit(X_train, y_train)

    # Faça previsões no conjunto de teste
    y_pred = svm_model.predict(X_test)

    # Calcule a acurácia do modelo para este fold
    fold_accuracy = accuracy_score(y_test, y_pred)

    # Armazene a acurácia deste fold na lista
    acc_scores.append(fold_accuracy)

mean_acc = np.mean(acc_scores)

# Imprima a média
print(f"Acurácia média: {mean_acc:.2%}")

Acurácia média: 19.64%


#### Classificação com RFE

In [135]:
from sklearn.feature_selection import RFE

rfe = RFE(svm.SVC(kernel="linear"), step=0.0001, n_features_to_select=500)
X_final = rfe.fit_transform(X, y)
x_train, x_test, y_train, y_test = train_test_split(X_final, y, test_size=0.3, random_state=42)
clf = SVC(kernel='linear', C=1, random_state=42, probability=True)
clf.fit(x_train, y_train)
y_pred = clf.predict(x_test)
print(f"Acurácia: {accuracy_score(y_test, y_pred):.2%}")

Acurácia: 29.41%


### Participante 2
#### Implementação do vetor

In [136]:

# Carregando dados do participante 1
x2 = np.load("datasets/p2_time.npy")
w2 = np.load("datasets/p2_freq.npy")

# Extraindo características do participante 1
data_wamp2 = wamp(x2, np.median(x2))
data_var2 = var(x2)
data_rms2 = rms(x2)
data_wl2 = wl(x2)
data_zc2 = zc(x2)

data_fmd2 = fmd(w2)
data_fmn2 = fmn(w2)
data_mmdf2 = mmdf(w2)
data_mmnf2 = mmnf(w2)

print("Shape dos vetores orinais", x2.shape, w2.shape)

print(data_wamp2.shape, data_var2.shape, data_rms2.shape, data_wl2.shape, data_zc2.shape, data_fmd2.shape, data_fmn2.shape, data_mmdf2.shape, data_mmnf2.shape)

Shape dos vetores orinais (28, 2, 8, 64) (28, 2, 8, 33)
(28, 2, 8) (28, 2, 8) (28, 2, 8) (28, 2, 8) (28, 2, 8) (28, 2, 8) (28, 2, 8) (28, 2, 8) (28, 2, 8)


In [137]:
# União do vetor de características inicial (concatenação de data) para o participante 1

features = np.array([data_wamp2, data_var2, data_rms2, data_wl2, data_zc2, data_fmd2, data_fmn2, data_mmdf2, data_mmnf2])
features.shape

(9, 28, 2, 8)

In [138]:
# Organização das dimensões
features = features.transpose(1, 3, 0, 2)

# Criar vetor de características definitivo
features = features.reshape(features.shape[0] * features.shape[1], features.shape[2] * features.shape[3])

features.shape

(224, 18)

In [139]:
labels_str = ['dir', 'esq', 'cima', 'baixo', 'cima', 'baixo',
'baixo', 'esq', 'dir', 'baixo', 'dir', 'dir', 'esq', 'cima',
'baixo', 'cima', 'esq', 'dir', 'cima', 'esq', 'baixo', 'esq',
'dir', 'esq', 'cima', 'dir', 'cima', 'baixo']

# transformando para numérico
lab_dict = {'dir': 0, 'esq': 1, 'cima': 2, 'baixo': 3}
labels_num = [lab_dict[item] for item in labels_str]

print(labels_num)

# criação do vetor de labels final
y = np.repeat(labels_num, int(features.shape[0] / len(labels_num)))

[0, 1, 2, 3, 2, 3, 3, 1, 0, 3, 0, 0, 1, 2, 3, 2, 1, 0, 2, 1, 3, 1, 0, 1, 2, 0, 2, 3]


#### Normalização dos dados

In [140]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
X = scaler.fit_transform(features)
y = scaler.fit_transform(y.reshape(-1, 1))

#### Classificação utilizando SVM padrão

In [141]:
# Utilizando SVM padrão
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
import numpy as np

# Criando os rótulos usando np.repeat
y = np.repeat(labels_num, int(features.shape[0] / len(labels_num)))

# Divisão dos dados em conjunto de treino e teste (opcional)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando e treinando o modelo SVM
svm_model = SVC(kernel='linear')  # Você pode escolher o tipo de kernel desejado
svm_model.fit(X_train, y_train)

# Avaliando o modelo (opcional)
accuracy = svm_model.score(X_test, y_test)
print(f'Acurácia do modelo: {accuracy * 100:.2f}%')

Acurácia do modelo: 33.33%


#### Classificação utilizando Grid Search e seleção de características

In [142]:
# Utilizando Grid Search com SVM e seleção de características

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.feature_selection import SelectKBest, f_regression
from sklearn.preprocessing import StandardScaler
from sklearn import svm, metrics
import numpy as np

max_k = X.shape[1]
start = int(max_k / 2)
end = max_k + 1

best_acc = 0
best_params = None

for k in range(start, end):
    X_new = SelectKBest(f_regression, k=k).fit_transform(X, y)
    x_train, x_test, y_train, y_test = train_test_split(X_new, y, test_size=0.25, random_state=42)

    param_grid = [
        {'C': [0.1, 1, 10, 100, 1000], 'kernel': ['linear']},
        {'C': [0.1, 1, 10, 100], 'gamma': [1, 0.1, 0.01, 0.001], 'kernel': ['linear', 'rbf', 'poly']},
    ]

    grid = GridSearchCV(svm.SVC(), param_grid, cv=5)
    grid.fit(x_train, y_train)

    # Predição
    y_pred = grid.predict(x_test)
    current_acc = metrics.accuracy_score(y_test, y_pred)

    if current_acc > best_acc:
        best_acc = current_acc
        best_params = grid.best_params_

print("Best accuracy:", best_acc)
print("Best parameters:", best_params)


Best accuracy: 0.35714285714285715
Best parameters: {'C': 100, 'gamma': 1, 'kernel': 'rbf'}


#### Classificação utilizando validaçãp cruzada

In [143]:
from sklearn.metrics import accuracy_score
from sklearn.model_selection import StratifiedKFold

# Dividindo os dados normalizados em 4 conjuntos (folds) para validação cruzada
cv = StratifiedKFold(n_splits=4)

# Lista para armazenar as acurácias para cada fold
acc_scores = []

# Loop pelos folds
for train_idx, test_idx in cv.split(X, y):
    # Divida os dados normalizados em conjunto de treinamento e conjunto de teste para este fold
    X_train, X_test = X[train_idx], X[test_idx]
    y_train, y_test = y[train_idx], y[test_idx]

    # Treine o modelo SVM no conjunto de treinamento
    svm_model.fit(X_train, y_train)

    # Faça previsões no conjunto de teste
    y_pred = svm_model.predict(X_test)

    # Calcule a acurácia do modelo para este fold
    fold_accuracy = accuracy_score(y_test, y_pred)

    # Armazene a acurácia deste fold na lista
    acc_scores.append(fold_accuracy)

mean_acc = np.mean(acc_scores)

# Imprima a média
print(f"Acurácia média: {mean_acc:.2%}")

Acurácia média: 23.21%


#### Classificação com RFE

In [144]:
from sklearn.feature_selection import RFE

rfe = RFE(svm.SVC(kernel="linear"), step=0.0001, n_features_to_select=500)
X_final = rfe.fit_transform(X, y)
x_train, x_test, y_train, y_test = train_test_split(X_final, y, test_size=0.3, random_state=42)
clf = SVC(kernel='linear', C=1, random_state=42, probability=True)
clf.fit(x_train, y_train)
y_pred = clf.predict(x_test)
print(f"Acurácia: {accuracy_score(y_test, y_pred):.2%}")

Acurácia: 23.53%
