## Validação dos dados EOG

Neste notebook está incluído os seguintes passos:
- Aplicação de características;
- Criação do vetor de características;
- Normalização de dados;
- Seleção de características;
- Classificação dos dados.

Uma característica é uma propriedade individual mensurável ou característica de um fenômeno que está sendo observado. Em nosso caso de EOG, uma característica pode ser extraída no domínio do tempo ou no domínio da frequência. As características a seguir foram retiradas do artigo *EMG Feature Extraction for Tolerance of White Gaussian Noise* \[1\].

#### Domínio do tempo

1. Willison Amplitude (WAMP)

    > $ \sum_{i=1}^{N-1}f(|x_i - x_{i+1}|) $
    
    > $ f(x) = \begin{cases} 1 & \text{if } x \gt threshold \\ 0 & \text{otherwise} \end{cases} $

2. Variance of EMG (VAR)

    > $ \frac{1}{N-1}\sum_{i=1}^{N}x_i^2 $

3. Root Mean Square (RMS)

    > $ \sqrt{\frac{1}{N}\sum_{i=1}^{N}|x_i|^2} $

4. Waveform Length (WL)
    
    > $ \sum_{i=1}^{N-1}|x_{i+1} - x_i| $

5. Zero Crossing (ZC)

    > $ \sum_{i=1}^{N}sgn(x_i) $
    
    > $ sgn(x) = \begin{cases} 1 & \text{if } x_i * x_{i+1} \leq 0 \\ 0 & \text{otherwise} \end{cases} $

#### Domínio da frequência

1. Median Frequency (FMD): energia média do sinal no domínio da frequência

    > $ \frac{1}{2}\sum_{j=1}^{M}PSD_j $

2. Mean Frequency (FMN)

    > $\sum_{j=1}^{M}f_j PSD_j / \sum_{j=1}^{M}PSD_j$
    
    > $ f_j = j * SampleRate / 2 * M $

3. Modified Median Frequency (MMDF)

    > $ \frac{1}{2}\sum_{j=1}^{M}A_j $
    
    > $ A_j = Amplitude\ do\ espectro\ j $

4. Modified Frequency Mean (MMNF)

    > $ \sum_{j=1}^{M}f_jAj / \sum_{j=1}^{M}Aj $


\[1\] Phinyomark, Angkoon & Limsakul, Chusak & Phukpattaranont, P.. (2008). EMG Feature Extraction for Tolerance of White Gaussian Noise.
[Disponível neste link](https://www.researchgate.net/publication/263765853_EMG_Feature_Extraction_for_Tolerance_of_White_Gaussian_Noise)

**Tarefa 1**: Descrever as características de acordo com o artigo citado e outros disponíveis relacionados. O que está querendo "ser visto" em cada característica? Qual é o significado matemático de cada uma delas?

**Domínio do tempo**
- Willison Amplitude (WAMP): é uma medida estatística que quantifica a quantidade de variação absoluta em uma série temporal. Ela é frequentemente usada em análise de séries temporais para identificar mudanças abruptas ou picos. Essencialmente, o WAMP é calculado somando as diferenças absolutas entre pontos consecutivos na série temporal, excluindo o primeiro ponto, já que não há ponto anterior para comparar. Significado matemático: $N$ é o número total de pontos na série temporal; $x_i$​ é o valor da série temporal no tempo $t$; $x_{i−1​}$ é o valor da série temporal no tempo $i-1$ e $∣\cdot∣$ denota o valor absoluto.

- Variance of EMG (VAR): a variância (VAR) da amplitude do sinal eletromiográfico é uma medida estatística que quantifica a dispersão dos valores de amplitude no sinal EMG. A variância é uma medida de quão distantes os valores individuais do sinal estão da média. Se a variância for alta, isso indica que os valores individuais estão mais dispersos, enquanto uma variância baixa indica que os valores estão mais próximos da média. Significado matemático: $N$ e $x_i$ são, respectivamente, o comprimento e o enésimo valor amostral do sinal EMG.

- Root Mean Square (RMS): a raiz quadrada da média dos quadrados é uma medida estatística utilizada para representar a magnitude de um conjunto de valores. No contexto de sinais, como o sinal eletromiográfico (EMG) ou de áudio, o RMS é frequentemente usado para quantificar a amplitude eficaz do sinal. Significado matemático: $N$ e $x_i$ são, respectivamente, o comprimento e o enésimo valor amostral do sinal EMG.

- Waveform Length (WL): é uma medida que quantifica a complexidade ou o comprimento total de uma forma de onda. É frequentemente utilizada em análises de sinais, como sinais eletromiográficos (EMG) ou outros tipos de sinais biomédicos. A fórmula envolve calcular a soma das diferenças absolutas entre amostras consecutivas na forma de onda. Essa medida é sensível às variações locais na amplitude da forma de onda e pode ser usada para avaliar a complexidade ou rugosidade do sinal. Quanto mais irregularidades ou mudanças abruptas houver na forma de onda, maior será o valor do Waveform Length. Significado matemático: $N$ e $x_i$ são, respectivamente, o comprimento e o enésimo valor amostral do sinal EMG.

- Zero Crossing (ZC): é uma medida utilizada para quantificar a frequência de mudanças de polaridade em um sinal, como uma forma de onda. Em sinais de áudio, por exemplo, um cruzamento por zero ocorre sempre que o sinal muda de positivo para negativo ou vice-versa. Em termos simples, um zero crossing é o ponto em que a amplitude de um sinal muda de sinal. Significado matemático: $N$ é o número total de amostras no sinal; $x_i$ representa cada amostra individual no sinal; $sign(x_i)$ é a função de sinal, que retorna $-1$ se $x_i$​ for negativo, $0$ se for zero e $1$ se for positivo.


**Domínio da frequência**
- Median Frequency (FMD): é a frequência na qual o espectro é dividido em duas regiões médias. Significado matemático: o $PSD$ aqui é entendido como $|w^2|$. 

- Mean Frequency (FMN): é uma medida da frequência média ponderada no espectro de potência do sinal. Ela é frequentemente usada para caracterizar a distribuição de energia em um sinal ao longo das diferentes frequências, fornecendo uma medida de centralidade das frequências predominantes no sinal. Significado matemático: o $PSD$ é entendido como $|w^2|$ e $f_j$ é o espectro de frequência no compartimento de frequência $j$.

- Modified Median Frequency (MMDF): é a frequência na qual o espectro é dividido em duas regiões com amplitude igual. Significado matemático: $A_j$ é o espectro de amplitude do EMG diante da frequência $j$.

- Modified Frequency Mean (MMNF): é estimado como a soma do produto do espectro de amplitude e frequência dividida pela soma total da intensidade do espectro. Significado matemático: $A_j$ e $f_j$ são o espectro de amplitude EMG e o espectro de frequência no compartimento de frequência $j$, respectivamente.


#### Aplicando as características

É necessário implementar as características, geralmente em formato de funções ou métodos, para que seja possível aplicar tais funções aos dados de entrada e obter as características resultantes. A seguir temos a implementação das características `VAR` & `RMS` (domínio do tempo) e `FDM` & `MMDF` (domínio da frequência).

In [1]:

from math import prod
import numpy as np

# funções auxiliares
def PSD(w):
    ''' definição da função PSD para o sinal no domínio da frequência '''
    return np.abs(w) ** 2

def sign(x):
    return x[:-1] * x[1:]

# funções de extração de características
def wamp(x, threshold):
    differences = np.abs(np.diff(x))
    return np.sum(differences > threshold)

def var(x):
    return np.sum(x ** 2, axis=-1) / (np.prod(x.shape) - 1)

def rms(x): #faz produtótio de 56, 2, 33, 64
    return np.sqrt(np.sum(np.abs(x) ** 2, axis=-1) / (np.prod(x.shape) - 1))

def wl(x):
    return np.sum(np.abs(np.diff(x)), axis=-1)

def zc(x):
    return np.sum(sign(x) <= 0, axis=-1)

def log_det(x):
    from math import e
    return e ** (np.sum(np.log10(np.abs(x)), axis=-1) /  np.prod(x.shape))

def fmd(w):
    return np.sum(PSD(w), axis=-1) / 2

def mmdf(w):
    return np.sum(np.abs(w), axis=-1) / 2

**Tarefa 2**: Implemente todas as características apresentadas neste tutorial em formato de funções. Sinta-se livre também para buscar e implementar características além das apresentadas, citando as fontes de tais características.


#### Vetor de características

Ao final da implementação e seleção das características, deve ser escolhida as características e então teremos um vetor com todas elas implementadas.

O vetor de características estará organizado da seguinte forma (exemplo p/ VAR, RMS, RDM e MMDF) (1 e 2 porque são dois eletrodos)

| ID sample | VAR1 | RMS1 | FMD1 | MMDF1 | VAR2 | RMS2 | FMD2 | MMDF2 | Classe |
|:---------:|:----:|:----:|:----:|:-----:|------|------|------|-------|:------:|
|     1     |  v1  |  v1  |  v1  |   v1  | v1   | v1   | v1   | v1    |    0   |
|     2     |  v2  |  v2  |  v2  |   v2  | v2   | v2   | v2   | v2    |    0   |
|    ...    |  ... |  ... |  ... |  ...  | ...  | ...  | ...  | ...   |   ...  |
|     N     |  vN  |  vN  |  vN  |   vN  | vN   | vN   | vN   | vN    |    7   |

#### Implementação do vetor



In [5]:

# Carregando dados dos participantes
x1 = np.load("datasets/p1_freq.npy")
w1 = np.load("datasets/p1_time.npy")

x1 = np.load("datasets/p2_freq.npy")
w1 = np.load("datasets/p2_time.npy")

print("Shape dos vetores orinais", x1.shape, w1.shape)

data_var = var(x1)
data_rms = rms(x1)

data_fmd = fmd(w1)
data_mmdf = mmdf(w1)

data_var.shape, data_rms.shape, data_fmd.shape, data_mmdf.shape
#56, 2, 33

Shape dos vetores orinais (28, 33, 2, 33) (28, 33, 2, 64)


((28, 33, 2), (28, 33, 2), (28, 33, 2), (28, 33, 2))

In [6]:
# União do vetor de características inicial (concatenação de data)

features = np.array([data_var, data_rms, data_fmd, data_mmdf])
features.shape

(4, 28, 33, 2)

In [7]:
# Organização das dimensões 56, 33, 4, 2
features = features.transpose(1, 3, 0, 2)

# Criar vetor de características definitivo
features = features.reshape(features.shape[0] * features.shape[1], features.shape[2] * features.shape[3])

features.shape

(56, 132)

In [13]:
labels_str = ['dir', 'esq', 'cima', 'baixo', 'cima', 'baixo',
'baixo', 'esq', 'dir', 'baixo', 'dir', 'dir', 'esq', 'cima',
'baixo', 'cima', 'esq', 'dir', 'cima', 'esq', 'baixo', 'esq',
'dir', 'esq', 'cima', 'dir', 'cima', 'baixo']

# transformando para numérico
lab_dict = {'dir': 0, 'esq': 1, 'cima': 2, 'baixo': 3}
labels_num = [lab_dict[item] for item in labels_str]

print(labels_num)

# criação do vetor de labels final
y = np.repeat(labels_num, int(features.shape[0] / len(labels_num)))

[0, 1, 2, 3, 2, 3, 3, 1, 0, 3, 0, 0, 1, 2, 3, 2, 1, 0, 2, 1, 3, 1, 0, 1, 2, 0, 2, 3]


In [9]:
#Aplicar normalização dos dados utilizando ferramentas já conhecidas

In [10]:
# Seleção de característica

In [11]:
# Classificação