## Análise da base de dados `Beta` utilizando algoritmos de ML

Neste notebook será analisado o `Beta dataset` utilizando algoritmos de ML para realizar a (1) extração de características, (2) seleção de características e (3) classificação dos dados

### Pontos importantes do dataset

- Frequências estimuladas (total de 40, com a diferença de 0.2 Hz uma da outra): 8.0, 8.2, ..., 15.6, 15.8;
- Taxa de amostragem: 250 Hz

### Analisar os "momentos" em que ocorrem evocação do sinal SSVEP

1. Criar o objeto `MNE` a partir dos dados dados do participante;
2. Aplicar no objeto `MNE` o filtro passa-faixa nos valores de 6 - 18 Hz;
3. Criar cópias do objeto `MNE` com fatias de tempo menores para analisar momentos que ocorrem estimulos ou não (verificar artigo);
    a) 0.0 - 0.5 segundos e 2.5 - 3.0 segundos ocorre apenas ruído;
    b) 0.5 - 2.5 segundos ocorre sinal SSVEP (com ruídos)
4. Com os sinais separados em objetos `MNE`, aplicar a `FFT`, para que seja possível plotar gráficos que contenham (ou não) as informações.
    - Os dados devem ser plotados no domínio da frequência (após a transformada de Fourier). O FFT pode ser realizado pela biblioteca `scipy.fft`.
    - Deve ser observado que as janelas (a) com ruído não aparecerão de fato o sinal SSVEP.

### Extração de características

Uma característica importante de acordo com o artigo base do dataset `BETA` é o *signal-to-noise ratio* (SNR).
São dois tipos de características SNR que podem ser implementadas: SNR de banda estreita (`narrow-SNR`) e SNR de banda larga (`wide-band SNR`).

Uma boa prática, é considerar o ruído das medidas de `SNR`, uma vez que os dados `SSVEP` não estão estimulados durante os períodos de 0 a 0,5 segundos e de 2,5 a 3 segundos. O ruído pode afetar a precisão das medidas de `SNR` e, portanto, é aconselhável levar isso em consideração.

Vamos realizar todos esses cálculos com dados fictícios:

In [5]:
import numpy as np

ch_ideal = ["Pz", "PO3", "PO5", "PO4", "PO6", "POz", "O1", "Oz", "O2"] #canais ideais
ch_names = ["FP1", "FPZ", "FP2", "AF3", "AF4", "F7", "F5", "F3", "F1", 
            "FZ", "F2", "F4", "F6", "F8", "FT7", "FC5", "FC3", "FC1", 
            "FCZ", "FC2", "FC4", "FC6", "FT8", "T7", "C5", "C3", "C1",
            "CZ", "C2", "C4", "C6", "T8", "M1", "TP7", "CP5", "CP3", "CP1", 
            "CPZ", "CP2", "CP4", "CP6", "TP8", "M2", "P7", "P5", "P3", "P1", 
            "PZ", "P2", "P4", "P6", "P8", "PO7", "PO5", "PO3", "POZ", "PO4", 
            "PO6", "PO8", "CB1", "O1", "OZ", "O2", "CB2"]

data = np.load("./datasets/beta/data1.npy")
labels = np.load("./datasets/beta/labels1.npy")
data2 = np.load("./datasets/beta/data2.npy")
labels2 = np.load("./datasets/beta/labels2.npy")

data.shape,labels.shape
data2.shape,labels2.shape

((160, 64, 750), (160,))

In [6]:
import mne

n_channels = 64
sfreq = 250
info = mne.create_info(ch_names, sfreq=sfreq, ch_types=(['eeg'] * len(ch_names)))

ev = {str(value): index  for index, value in enumerate(sorted(set(labels)))}

labels.max(), labels.min()

(15.8, 8.0)

Agora iremos estimar o ruído de fundo, para calcular posteriormente o `narrow SNR` e o `wide-band SNR`. 

In [7]:
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
events = np.column_stack((
    np.array(range(len(labels))),
    np.zeros(160, dtype=int),
    le.fit_transform(labels))
)

events2 = np.column_stack((
    np.array(range(len(labels2))),
    np.zeros(160, dtype=int),
    le.fit_transform(labels2))
)

mne_data = mne.EpochsArray(data, info, events, event_id=ev)
filtered_mne_data = mne.EpochsArray(data, info, events, event_id=ev).filter(7.9, 16)
mne_data.get_data().shape
filtered_mne_data

mne_data2 = mne.EpochsArray(data2, info, events2, event_id=ev)
filtered_mne_data2 = mne.EpochsArray(data2, info, events2, event_id=ev).filter(7.9, 16)
mne_data2.get_data().shape
filtered_mne_data2

Not setting metadata
160 matching events found
No baseline correction applied
0 projection items activated
Not setting metadata
160 matching events found
No baseline correction applied
0 projection items activated
Setting up band-pass filter from 7.9 - 16 Hz

FIR filter parameters
---------------------
Designing a one-pass, zero-phase, non-causal bandpass filter:
- Windowed time-domain design (firwin) method
- Hamming window with 0.0194 passband ripple and 53 dB stopband attenuation
- Lower passband edge: 7.90
- Lower transition bandwidth: 2.00 Hz (-6 dB cutoff frequency: 6.90 Hz)
- Upper passband edge: 16.00 Hz
- Upper transition bandwidth: 4.00 Hz (-6 dB cutoff frequency: 18.00 Hz)
- Filter length: 413 samples (1.652 s)



[Parallel(n_jobs=1)]: Done  17 tasks      | elapsed:    0.0s
[Parallel(n_jobs=1)]: Done  71 tasks      | elapsed:    0.0s
[Parallel(n_jobs=1)]: Done 161 tasks      | elapsed:    0.0s
[Parallel(n_jobs=1)]: Done 287 tasks      | elapsed:    0.0s
[Parallel(n_jobs=1)]: Done 449 tasks      | elapsed:    0.0s
[Parallel(n_jobs=1)]: Done 647 tasks      | elapsed:    0.1s
[Parallel(n_jobs=1)]: Done 881 tasks      | elapsed:    0.1s
[Parallel(n_jobs=1)]: Done 1151 tasks      | elapsed:    0.1s
[Parallel(n_jobs=1)]: Done 1457 tasks      | elapsed:    0.1s
[Parallel(n_jobs=1)]: Done 1799 tasks      | elapsed:    0.2s
[Parallel(n_jobs=1)]: Done 2177 tasks      | elapsed:    0.2s
[Parallel(n_jobs=1)]: Done 2591 tasks      | elapsed:    0.2s
[Parallel(n_jobs=1)]: Done 3041 tasks      | elapsed:    0.3s
[Parallel(n_jobs=1)]: Done 3527 tasks      | elapsed:    0.3s
[Parallel(n_jobs=1)]: Done 4049 tasks      | elapsed:    0.4s
[Parallel(n_jobs=1)]: Done 4607 tasks      | elapsed:    0.4s
[Parallel(n_job

Not setting metadata
160 matching events found
No baseline correction applied
0 projection items activated
Not setting metadata
160 matching events found
No baseline correction applied
0 projection items activated
Setting up band-pass filter from 7.9 - 16 Hz

FIR filter parameters
---------------------
Designing a one-pass, zero-phase, non-causal bandpass filter:
- Windowed time-domain design (firwin) method
- Hamming window with 0.0194 passband ripple and 53 dB stopband attenuation
- Lower passband edge: 7.90
- Lower transition bandwidth: 2.00 Hz (-6 dB cutoff frequency: 6.90 Hz)
- Upper passband edge: 16.00 Hz
- Upper transition bandwidth: 4.00 Hz (-6 dB cutoff frequency: 18.00 Hz)
- Filter length: 413 samples (1.652 s)



[Parallel(n_jobs=1)]: Done  17 tasks      | elapsed:    0.0s
[Parallel(n_jobs=1)]: Done  71 tasks      | elapsed:    0.0s
[Parallel(n_jobs=1)]: Done 161 tasks      | elapsed:    0.0s
[Parallel(n_jobs=1)]: Done 287 tasks      | elapsed:    0.0s
[Parallel(n_jobs=1)]: Done 449 tasks      | elapsed:    0.0s
[Parallel(n_jobs=1)]: Done 647 tasks      | elapsed:    0.1s
[Parallel(n_jobs=1)]: Done 881 tasks      | elapsed:    0.1s
[Parallel(n_jobs=1)]: Done 1151 tasks      | elapsed:    0.1s
[Parallel(n_jobs=1)]: Done 1457 tasks      | elapsed:    0.1s
[Parallel(n_jobs=1)]: Done 1799 tasks      | elapsed:    0.2s
[Parallel(n_jobs=1)]: Done 2177 tasks      | elapsed:    0.2s
[Parallel(n_jobs=1)]: Done 2591 tasks      | elapsed:    0.2s
[Parallel(n_jobs=1)]: Done 3041 tasks      | elapsed:    0.3s
[Parallel(n_jobs=1)]: Done 3527 tasks      | elapsed:    0.3s
[Parallel(n_jobs=1)]: Done 4049 tasks      | elapsed:    0.3s
[Parallel(n_jobs=1)]: Done 4607 tasks      | elapsed:    0.4s
[Parallel(n_job

0,1
Number of events,160
Events,10.0: 4 10.2: 4 10.4: 4 10.6: 4 10.8: 4 11.0: 4 11.2: 4 11.4: 4 11.6: 4 11.8: 4 12.0: 4 12.2: 4 12.4: 4 12.600000000000001: 4 12.8: 4 13.0: 4 13.200000000000001: 4 13.4: 4 13.600000000000001: 4 13.8: 4 14.0: 4 14.200000000000001: 4 14.4: 4 14.600000000000001: 4 14.8: 4 15.0: 4 15.200000000000001: 4 15.4: 4 15.600000000000001: 4 15.8: 4 8.0: 4 8.2: 4 8.4: 4 8.6: 4 8.799999999999999: 4 9.0: 4 9.2: 4 9.4: 4 9.6: 4 9.8: 4
Time range,0.000 – 2.996 s
Baseline,off


# Sujeito 2

In [8]:
sr = 250

target_frequencies = np.arange(8, 16, 0.2)

target_amplitudes = []

for channel_data in mne_data.get_data():
    target_per_channel = [] # Armazena as amplitudes para cada frequência alvo
    
    for sign in channel_data:
        fft_result = np.fft.fft(sign) # Transformada de Fourier
        psd = np.abs(fft_result) ** 2 # Densidade espectral de potência (PSD)
        frequencies = np.fft.fftfreq(len(fft_result), 1 / sr) # Frequências
         
        target_amplitudes_trial = [] 
        
        for target_frequency in target_frequencies:
            index = np.argmin(np.abs(frequencies - target_frequency)) # Índice da frequência alvo
            amplitude = np.sqrt(psd[index]) # Amplitude da frequência alvo
            target_amplitudes_trial.append(amplitude) # Armazena a amplitude da frequência alvo
        
        target_per_channel.append(target_amplitudes_trial) # Armazena as amplitudes para cada frequência alvo
    
    target_amplitudes.append(target_per_channel) # Armazena as amplitudes para cada canal

target_amplitudes = np.array(target_amplitudes) # Converte para array numpy

sn = filtered_mne_data.copy().crop(tmin=0.0, tmax=0.5)# 
mean = filtered_mne_data.copy().crop(tmin=0.5, tmax=2.5)
end = filtered_mne_data.copy().crop(tmin=2.5, tmax=3.0)

noise_power = []

fft_sn =  np.abs(np.fft.fft(sn)) ** 2 # Densidade espectral de potência (PSD)
fft_end = np.abs(np.fft.fft(end)) ** 2 

# média da potência nos intervalos de tempo sem estímulo
base_power = np.mean(fft_sn, axis=-1)
rest_power = np.mean(fft_end, axis=-1)

# média das duas médias de potência obtidas anteriorment
snr = np.mean([base_power + rest_power])

snr


  end = filtered_mne_data.copy().crop(tmin=2.5, tmax=3.0)


3027.302076985538

# Sujeito 2

In [9]:
sr = 250

target_frequencies2 = np.arange(8, 16, 0.2)

target_amplitudes2 = []

for channel_data in mne_data2.get_data():
    target_per_channel = [] # Armazena as amplitudes para cada frequência alvo
    
    for sign in channel_data:
        fft_result = np.fft.fft(sign) # Transformada de Fourier
        psd = np.abs(fft_result) ** 2 # Densidade espectral de potência (PSD)
        frequencies = np.fft.fftfreq(len(fft_result), 1 / sr) # Frequências
         
        target_amplitudes_trial = [] 
        
        for target_frequency in target_frequencies2:
            index = np.argmin(np.abs(frequencies - target_frequency)) # Índice da frequência alvo
            amplitude = np.sqrt(psd[index]) # Amplitude da frequência alvo
            target_amplitudes_trial.append(amplitude) # Armazena a amplitude da frequência alvo
        
        target_per_channel.append(target_amplitudes_trial) # Armazena as amplitudes para cada frequência alvo
    
    target_amplitudes2.append(target_per_channel) # Armazena as amplitudes para cada canal

target_amplitudes = np.array(target_amplitudes2) # Converte para array numpy

sn = filtered_mne_data.copy().crop(tmin=0.0, tmax=0.5)# 
mean = filtered_mne_data.copy().crop(tmin=0.5, tmax=2.5)
end = filtered_mne_data.copy().crop(tmin=2.5, tmax=3.0)

noise_power = []

fft_sn =  np.abs(np.fft.fft(sn)) ** 2 # Densidade espectral de potência (PSD)
fft_end = np.abs(np.fft.fft(end)) ** 2 

# média da potência nos intervalos de tempo sem estímulo
base_power = np.mean(fft_sn, axis=-1)
rest_power = np.mean(fft_end, axis=-1)

# média das duas médias de potência obtidas anteriorment
snr2 = np.mean([base_power + rest_power])

snr2

  end = filtered_mne_data.copy().crop(tmin=2.5, tmax=3.0)


3027.302076985538

Antes de calcular os SNRs, precisamos obter as amplitudes alvo por meio dos dados EEG:

Vamos calcular o SNR de "banda estreita". Pode ser observado pela seguinte equação:

$SNR_{banda\ estreita} = 10 \cdot \log_{10}\left(\frac{\text{energia total do espectro}}{\text{média das amplitudes nas frequências vizinhas}}\right)$

Já o SNR de banda larga é definido da seguinte forma:

$SNR_{banda\ larga} = 10 \cdot \log_{10}\left(\frac{\text{energia total do espectro}}{\text{energia total do espectro de amplitude}}\right)$

In [10]:
target_amplitudes_adjusted = np.abs(target_amplitudes - snr) #ajuste da amplitude do sinal
 
narrow_band_SNR = 10 * np.log10(target_amplitudes_adjusted / snr) # razao sinal ruido de banda estreita
print(narrow_band_SNR) 
print(narrow_band_SNR.shape)

total_power = np.sum(target_amplitudes_adjusted) # potencia total
wide_band_SNR = 10 * np.log10(target_amplitudes_adjusted / total_power)
print(wide_band_SNR)
print(wide_band_SNR.shape)

data = np.array([narrow_band_SNR, wide_band_SNR]) # array com as duas razoes sinal ruido
print(data.shape)
data = data.swapaxes(0, 1) # troca de eixos
print(data.shape)
data = data.swapaxes(1, 2) # troca de eixos
print(data.shape)
data = data.reshape(data.shape[0], data.shape[1], data.shape[2] * data.shape[3]) # reshape
#salva os dados
np.save("./datasets/beta/data1_filtered.npy", data)


target_amplitudes_adjusted = np.abs(target_amplitudes2- snr2) #ajuste da amplitude do sinal
 
narrow_band_SNR = 10 * np.log10(target_amplitudes_adjusted / snr2) # razao sinal ruido de banda estreita
print(narrow_band_SNR) 
print(narrow_band_SNR.shape)

total_power = np.sum(target_amplitudes_adjusted) # potencia total
wide_band_SNR = 10 * np.log10(target_amplitudes_adjusted / total_power)
print(wide_band_SNR)
print(wide_band_SNR.shape)

data = np.array([narrow_band_SNR, wide_band_SNR]) # array com as duas razoes sinal ruido
print(data.shape)
data = data.swapaxes(0, 1) # troca de eixos
print(data.shape)
data = data.swapaxes(1, 2) # troca de eixos
print(data.shape)
data = data.reshape(data.shape[0], data.shape[1], data.shape[2] * data.shape[3]) # reshape
#salva os dados
np.save("./datasets/beta/data2_filtered.npy", data)


[[[-0.89297914 -0.23183097 -0.23183097 ... -0.27838992 -0.47166005
   -0.47166005]
  [-0.96096236 -0.27852594 -0.27852594 ... -0.09457145 -0.27455666
   -0.27455666]
  [-0.76289392 -0.27371347 -0.27371347 ... -0.14015224 -0.24532826
   -0.24532826]
  ...
  [-0.21477371 -0.18028919 -0.18028919 ... -0.21690768 -0.12136642
   -0.12136642]
  [-0.33804613 -0.13229763 -0.13229763 ... -0.27061263 -0.73536923
   -0.73536923]
  [-0.35193225 -0.19830963 -0.19830963 ... -0.18008069 -0.3225174
   -0.3225174 ]]

 [[-0.29767267 -0.87205286 -0.87205286 ... -0.2636205  -0.26839951
   -0.26839951]
  [-0.30555305 -0.8322085  -0.8322085  ... -0.22562104 -0.36428491
   -0.36428491]
  [-0.47780798 -0.88934301 -0.88934301 ... -0.22495976 -0.54676488
   -0.54676488]
  ...
  [-0.18844968 -0.46636928 -0.46636928 ... -0.06160761 -0.94070035
   -0.94070035]
  [-0.26366781 -0.51824989 -0.51824989 ... -0.18771682 -0.60960261
   -0.60960261]
  [-0.23237034 -0.56545521 -0.56545521 ... -0.32205453 -0.74264377
   -0.7

Ao final desta etapa, será obtido um vetor de características. Estas podem ser:
- `narrow SNR` (brigatória);
- `wide-band SNR` (brigatória);
- Maior valor espectral (FFT);
- Média dos valores espectrais (FFT).

Dimensionalidade dos dados será explicada da seguinte forma:

`40, 4, 64, 750` -> 40 targets, 4 trials, 64 canais e 750 valores
`160, 64 (SNR) + 64 (média) + 64 (maior) ...`
Resultando em `160, 192`.

### Seleção de características e classificação

Como existem diversos eletrodos (canais) que não obtém sinal SSVEP, podemos extrair as caracteríscas que não contribuem para a classificação dos dados.

Podemos utilizar o método `RFE` (*Recursive Feature Elimination*) aplicado por meio de `sklearn.feature_selection.RFE`, aprimorando o parâmetro `n_features_to_select` até obter o melhor resultado de classificação.

Para a classificação propriamente dita, é considerado o uso do método `SVM`.