In [19]:
%matplotlib inline
import matplotlib.pyplot as plt
from matplotlib import rcParams
import numpy as np
from scipy import signal
from sklearn.preprocessing import LabelEncoder
import mne
from sklearn.preprocessing import LabelEncoder
from scipy.fft import fft


## Análise  da base de dados `Beta` utilizando algoritmos de ML

Neste notebook será analisado o `Beta dataset` utilizando algoritmos de ML para realizar a (1) extração de características. (2) seleção de características e (3) classificação dos dados.

### Pontos Importantes do Dataset
 
- Frequências estimuladas (total de 40, com a diferença de 0.2 Hz uma da outra): 8.0, 8.2, ..., 15.6, 15.8;
- Taxa de amostragem: 250 Hz


### Análisar os "momentos" em que ocorrem evocação do sinal SSVEP

1. Criar o objeto `MNE` a partir dos dados do participante.
2. Aplicar no objeto `MNE` o filtro passa-faixa nos valores de 6 - 18 Hz.
3. Criar cópias do objeto `MNE` com fatias de tempo menores para analisar momentos que ocorrem estimulos ou não (verificar artigo).
   - **a)** 0.0 - 0.5 segundos e  2.5 - 3.0 segundos ocorre apenas ruído;
   - **b**) 0.5 - 2.5 segundos ocorre sinal SSVEP (com ruídos)
4. Com os sinais separados em objetos MNE, aplicar a `FFT`, para que seja possível plotar gráficos que contenham (ou não) as informações. 
   - Os dados devem ser plotados no dominio da frequência (após a transformada de Fourier). O FFT pode ser realizada pela biblioteca `scipy.fft`.
   - Deve ser observado que as janelas (a) com ruídos não aparecerão de fato o sinal SSVEP.

In [20]:
data = np.load("../../datasets/beta/data.npy")

print(data.shape)


(160, 64, 750)


In [21]:
n_channels = 64
sfreq = 250
ch_names = list(np.load("../../datasets/beta/channels.npy"))
ch_types = ['eeg'] * len(ch_names)
info = mne.create_info(ch_names, sfreq=sfreq, ch_types=ch_types)
best = ['P6', 'PO3']

In [22]:
labels = np.load("../../datasets/beta/labels.npy")
unique_labels = sorted(set(labels))
event_dict = {str(value): index  for index, value in enumerate(unique_labels)}
labels.shape

(160,)

In [23]:
# método para transformar labels categóricos
le = LabelEncoder()
events = np.column_stack((
    np.array(range(len(labels))),
    np.zeros(160, dtype=int),
    le.fit_transform(labels))
)

# print(events.shape)

mne_data = mne.EpochsArray(data, info, events, event_id=event_dict)
filtered_mne_data = mne_data.filter(6, 18)
filtered_mne_data

Not setting metadata
160 matching events found
No baseline correction applied
0 projection items activated
Setting up band-pass filter from 6 - 18 Hz

FIR filter parameters
---------------------
Designing a one-pass, zero-phase, non-causal bandpass filter:
- Windowed time-domain design (firwin) method
- Hamming window with 0.0194 passband ripple and 53 dB stopband attenuation
- Lower passband edge: 6.00
- Lower transition bandwidth: 2.00 Hz (-6 dB cutoff frequency: 5.00 Hz)
- Upper passband edge: 18.00 Hz
- Upper transition bandwidth: 4.50 Hz (-6 dB cutoff frequency: 20.25 Hz)
- Filter length: 413 samples (1.652 s)



[Parallel(n_jobs=1)]: Done  17 tasks      | elapsed:    0.0s
[Parallel(n_jobs=1)]: Done  71 tasks      | elapsed:    0.0s
[Parallel(n_jobs=1)]: Done 161 tasks      | elapsed:    0.0s
[Parallel(n_jobs=1)]: Done 287 tasks      | elapsed:    0.0s
[Parallel(n_jobs=1)]: Done 449 tasks      | elapsed:    0.0s
[Parallel(n_jobs=1)]: Done 647 tasks      | elapsed:    0.1s
[Parallel(n_jobs=1)]: Done 881 tasks      | elapsed:    0.1s
[Parallel(n_jobs=1)]: Done 1151 tasks      | elapsed:    0.1s
[Parallel(n_jobs=1)]: Done 1457 tasks      | elapsed:    0.1s
[Parallel(n_jobs=1)]: Done 1799 tasks      | elapsed:    0.2s
[Parallel(n_jobs=1)]: Done 2177 tasks      | elapsed:    0.2s
[Parallel(n_jobs=1)]: Done 2591 tasks      | elapsed:    0.2s
[Parallel(n_jobs=1)]: Done 3041 tasks      | elapsed:    0.3s
[Parallel(n_jobs=1)]: Done 3527 tasks      | elapsed:    0.3s
[Parallel(n_jobs=1)]: Done 4049 tasks      | elapsed:    0.4s
[Parallel(n_jobs=1)]: Done 4607 tasks      | elapsed:    0.4s
[Parallel(n_job

0,1
Number of events,160
Events,10.0: 4 10.2: 4 10.4: 4 10.6: 4 10.8: 4 11.0: 4 11.2: 4 11.4: 4 11.6: 4 11.8: 4 12.0: 4 12.2: 4 12.4: 4 12.600000000000001: 4 12.8: 4 13.0: 4 13.200000000000001: 4 13.4: 4 13.600000000000001: 4 13.8: 4 14.0: 4 14.200000000000001: 4 14.4: 4 14.600000000000001: 4 14.8: 4 15.0: 4 15.200000000000001: 4 15.4: 4 15.600000000000001: 4 15.8: 4 8.0: 4 8.2: 4 8.4: 4 8.6: 4 8.799999999999999: 4 9.0: 4 9.2: 4 9.4: 4 9.6: 4 9.8: 4
Time range,0.000 – 2.996 s
Baseline,off


In [57]:
start_noise = filtered_mne_data.copy().crop(tmin=0.0, tmax=0.5)
middle = filtered_mne_data.copy().crop(tmin=0.5, tmax=2.5)
end_noise = filtered_mne_data.copy().crop(tmin=2.5, tmax=3.0)

noise_power = []

fft_start_result = np.fft.fft(start_noise)
fft_end_result = np.fft.fft(end_noise)

# densidade espectral de potência (PSD)
psd_start = np.abs(fft_start_result) ** 2
psd_end = np.abs(fft_end_result) ** 2

# média da potência nos intervalos de tempo sem estímulo
base_power = np.mean(psd_start)
rest_power = np.mean(psd_end)

# média das duas médias de potência obtidas anteriorment
mean_noise_power = (base_power + rest_power) / 2

mean_noise_power

  end_noise = filtered_mne_data.copy().crop(tmin=2.5, tmax=3.0)


2948.0459396674833

In [58]:
base_start = 0
base_end = 125
rest_start = 625
rest_end = 749

noise_power = []

# consideramos a primeira amostra (1º target, 1º trial)
for channel_data in mne_data.get_data():
  fft_result = np.fft.fft(channel_data)

  psd = np.abs(fft_result) ** 2

  for i in range(0, 64):
    # média da potência nos intervalos de tempo sem estímulo
    base_power = np.mean(psd[i][base_start:base_end])
    rest_power = np.mean(psd[i][rest_start:rest_end])

    # média das duas médias de potência obtidas anteriormente
    mean_noise_power = (base_power + rest_power) / 2
    noise_power.append(mean_noise_power)

# média das médias de potência de todos os canais para estimar o ruído de fundo
estimated_background_noise = np.mean(noise_power)
estimated_background_noise

51636.45272557037

#### Extração de características

Uma característica importante de acordo com o artigo base do dataset `BETA` é o *signal-to-noise ratio* (SNR).

Ao final desta etapa, será obtido um vetor de características. Estas podem ser:
- `SNR` (obrigatória);
- Maior valor espectral (FFT);
- Médio dos valores espectrais (FFT);


Dimensionalidade dos dados será explicada da seguinte forma:

`40, 4, 64, 750` -> 40 targets, 4 trials, 64 channels e 750 values.

`160, 64 (SRN) + 64 (MÉDIA) + 64 (MAIOR) ...`

Resultando em  `160, 192`

#### Seleção de características e classsificação

Como existem diversos eletrodos (canais) que não obtem sinal SSVEP, podemos extrair as características que não contribuem para a classificação dos dados.


Podemos utilizar o método `RFE` (*Recursive Feature Elimination*) aplicador por meio de `sklearn.feature_selection.RFE`, aprimorand o parâmetro `n_features_to_select` até obter o melhor resultado de classificação.

Para a classificação propriamente dita, é considerado o uso do método `SVM`.

# How to calculate SNR https://saturncloud.io/blog/calculating-signaltonoise-ratio-in-python-with-scipy-v11/