## Análise da base de dados `Beta` utilizando algoritmos de ML

Neste notebook será analisado o `Beta dataset` utilizando algoritmos de ML para realizar a (1) extração de características, (2) seleção de características e (3) classificação dos dados

### Pontos importantes do dataset

- Frequências estimuladas (total de 40, com a diferença de 0.2 Hz uma da outra): 8.0, 8.2, ..., 15.6, 15.8;
- Taxa de amostragem: 250 Hz

### Analisar os "momentos" em que ocorrem evocação do sinal SSVEP

1. Criar o objeto `MNE` a partir dos dados dados do participante;
2. Aplicar no objeto `MNE` o filtro passa-faixa nos valores de 6 - 18 Hz;
3. Criar cópias do objeto `MNE` com fatias de tempo menores para analisar momentos que ocorrem estimulos ou não (verificar artigo);
    a) 0.0 - 0.5 segundos e 2.5 - 3.0 segundos ocorre apenas ruído;
    b) 0.5 - 2.5 segundos ocorre sinal SSVEP (com ruídos)
4. Com os sinais separados em objetos `MNE`, aplicar a `FFT`, para que seja possível plotar gráficos que contenham (ou não) as informações.
    - Os dados devem ser plotados no domínio da frequência (após a transformada de Fourier). O FFT pode ser realizado pela biblioteca `scipy.fft`.
    - Deve ser observado que as janelas (a) com ruído não aparecerão de fato o sinal SSVEP.

### Extração de características

Uma característica importante de acordo com o artigo base do dataset `BETA` é o *signal-to-noise ratio* (SNR).
São dois tipos de características SNR que podem ser implementadas: SNR de banda estreita (`narrow-SNR`) e SNR de banda larga (`wide-band SNR`).

Uma boa prática, é considerar o ruído das medidas de `SNR`, uma vez que os dados `SSVEP` não estão estimulados durante os períodos de 0 a 0,5 segundos e de 2,5 a 3 segundos. O ruído pode afetar a precisão das medidas de `SNR` e, portanto, é aconselhável levar isso em consideração.

Vamos realizar todos esses cálculos com dados fictícios:

In [52]:
# Criando dados fictícios

import numpy as np

shape = (160, 64, 750)
data = np.random.normal(loc=0, scale=10, size=shape).astype(np.float32)
data = np.load("./datasets/beta/data1.npy")
data.shape

(160, 64, 750)

Agora iremos estimar o ruído de fundo, para calcular posteriormente o `narrow SNR` e o `wide-band SNR`. 

In [53]:
# Estimando o ruído de fundo

# intervalos de tempo sem estímulo (0 a 0,5 segundos e 2,5 a 3 segundos)
base_start = 0
base_end = 125
rest_start = 625
rest_end = 750

# armazena uma lista com as médias de potência para cada canal
noise_power = []
# consideramos a primeira amostra (1º target, 1º trial)
for channel_data in data[0, :, :]:
    fft_result = np.fft.fft(channel_data)
    # densidade espectral de potência (PSD)
    psd = np.abs(fft_result) ** 2
    # média da potência nos intervalos de tempo sem estímulo
    base_power = np.mean(psd[base_start:base_end])
    rest_power = np.mean(psd[rest_start:rest_end])
    # média das duas médias de potência obtidas anteriormente
    mean_noise_power = (base_power + rest_power) / 2
    noise_power.append(mean_noise_power)
#média das médias de potência de todos os canais para estimar o ruído de fundo
estimated_background_noise = np.mean(noise_power)
estimated_background_noise

42300.354473251005

Antes de calcular os SNRs, precisamos obter as amplitudes alvo por meio dos dados EEG:

In [54]:
from scipy.signal import find_peaks

sr = 250

# frequências alvo
target_frequencies = np.arange(8, 16, 0.2)
# lista para armazenar as amplitudes nas frequências alvo
target_amplitudes = []

for channel_data in data[0, :, :]:
    fft_result = np.fft.fft(channel_data)
    psd = np.abs(fft_result) ** 2
    frequencies = np.fft.fftfreq(len(fft_result), 1 / sr)
    target_amplitudes_trial = []
    for target_frequency in target_frequencies:
        # encontrando o índice da frequência alvo no espectro de frequência
        index = np.argmin(np.abs(frequencies - target_frequency))
        # amplitude na frequência alvo
        amplitude = np.sqrt(psd[index])
        target_amplitudes_trial.append(amplitude)
    target_amplitudes.append(target_amplitudes_trial)
target_amplitudes = np.array(target_amplitudes)
target_amplitudes.shape

(64, 40)

Vamos calcular o SNR de "banda estreita". Pode ser observado pela seguinte equação:

$SNR_{banda\ estreita} = 10 \cdot \log_{10}\left(\frac{\text{energia total do espectro}}{\text{média das amplitudes nas frequências vizinhas}}\right)$

Já o SNR de banda larga é definido da seguinte forma:

$SNR_{banda\ larga} = 10 \cdot \log_{10}\left(\frac{\text{energia total do espectro}}{\text{energia total do espectro de amplitude}}\right)$

In [55]:
# forçando (estragando) valor de "estimated_background_noise" para não sobrar valores negativos
estimated_background_noise = 1.
target_amplitudes_adjusted = target_amplitudes - estimated_background_noise

# subtraindo o ruído de fundo das amplitudes
narrow_band_SNR = 10 * np.log10(target_amplitudes_adjusted / estimated_background_noise)
print(narrow_band_SNR)
print(narrow_band_SNR.shape)

total_power = np.sum(target_amplitudes_adjusted)
wide_band_SNR = 10 * np.log10(target_amplitudes_adjusted / total_power)
print(wide_band_SNR)
print(wide_band_SNR.shape)



[[19.82717186 24.26081322 24.26081322 ... 15.64590411 19.58275271
  19.58275271]
 [21.78768375 23.71482808 23.71482808 ... 14.05880289 19.15717556
  19.15717556]
 [22.18945748 23.873285   23.873285   ... 12.98691673 18.3546991
  18.3546991 ]
 ...
 [24.84833951 24.90060285 24.90060285 ... 23.60732439 19.95319979
  19.95319979]
 [24.00267082 22.92993137 22.92993137 ... 23.10684901 18.828791
  18.828791  ]
 [24.82505371 24.73022062 24.73022062 ... 23.47800171 19.60920596
  19.60920596]]
(64, 40)
[[-35.74696811 -31.31332675 -31.31332675 ... -39.92823586 -35.99138726
  -35.99138726]
 [-33.78645622 -31.85931189 -31.85931189 ... -41.51533708 -36.41696441
  -36.41696441]
 [-33.38468249 -31.70085497 -31.70085497 ... -42.58722324 -37.21944087
  -37.21944087]
 ...
 [-30.72580046 -30.67353712 -30.67353712 ... -31.96681557 -35.62094018
  -35.62094018]
 [-31.57146914 -32.6442086  -32.6442086  ... -32.46729096 -36.74534897
  -36.74534897]
 [-30.74908626 -30.84391935 -30.84391935 ... -32.09613826 -35.

Ao final desta etapa, será obtido um vetor de características. Estas podem ser:
- `narrow SNR` (brigatória);
- `wide-band SNR` (brigatória);
- Maior valor espectral (FFT);
- Média dos valores espectrais (FFT).

Dimensionalidade dos dados será explicada da seguinte forma:

`40, 4, 64, 750` -> 40 targets, 4 trials, 64 canais e 750 valores
`160, 64 (SNR) + 64 (média) + 64 (maior) ...`
Resultando em `160, 192`.

### Seleção de características e classificação

Como existem diversos eletrodos (canais) que não obtém sinal SSVEP, podemos extrair as caracteríscas que não contribuem para a classificação dos dados.

Podemos utilizar o método `RFE` (*Recursive Feature Elimination*) aplicado por meio de `sklearn.feature_selection.RFE`, aprimorando o parâmetro `n_features_to_select` até obter o melhor resultado de classificação.

Para a classificação propriamente dita, é considerado o uso do método `SVM`.