# Extração da característica relação sinal-ruído (SNR) de dados de EEG

A relação sinal-ruído (SNR, do inglês _Signal-to-Noise Ratio_) é uma medida que compara o nível do sinal desejado com o nível do ruído de fundo. Uma SNR mais alta indica um sinal mais forte em comparação ao ruído, enquanto uma SNR mais baixa indica que o ruído é comparativamente forte.

O objetivo é utilizar um conjunto de dados com nível de atividade cerebral basal (que será considerado e utilizado como "ruído") e "removê-lo" do sinal obtido no experimento a fim de reconhecer os padrões de foco com maior clareza.

No contexto da caracterização de foco, podemos, a partir do sinal basal, classificar os sinais dos ritmos cerebrais com a presença ou não de foco, de forma que as amostras de sinais extraídas de um buffer sejam rotuladas com com a presença ou não de foco.

Esta análise será realizada com o auxílio do classificador SVM (_Support Vector Machine_). Nesse sentido, uma porcetagem das amostras são utilizadas para treino e outra para o teste (70 e 30% respectivamente).

In [35]:
import mne
import copy
import numpy as np
from scipy.signal import welch
import matplotlib.pyplot as plt

from sklearn.svm import SVC
from sklearn.feature_selection import RFE
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report


In [36]:
# Transform a string that represents a time value ("min:sec") into number and converts it to seconds
def convert_min_to_sec(time):
    minutes, seconds = map(int, time.split(":"))
    return minutes * 60 + seconds

# Transfor a string thats represents a range time "0:21 - 0:40" into index that will be used to cut data
def convert_time_range_to_index(timerange):
    start, end = map(str, timerange.split(" - "))
    new_start = convert_min_to_sec(start)
    new_end = convert_min_to_sec(end)
    
    index = []
    index.append(new_start * 250)
    index.append(new_end * 250)

    return index

In [37]:
n_channels = 8
ch_types = ['eeg'] * n_channels
sfreq = 250
ch_names = ["F3", "Fz", "F4", "C3", "Cz", "C4", "P3", "P4"]
info = mne.create_info(ch_names=ch_names, sfreq=sfreq, ch_types=ch_types)
info.set_montage("standard_1020")

0,1
Measurement date,Unknown
Experimenter,Unknown
Participant,Unknown

0,1
Digitized points,11 points
Good channels,8 EEG
Bad channels,
EOG channels,Not available
ECG channels,Not available

0,1
Sampling frequency,250.00 Hz
Highpass,0.00 Hz
Lowpass,125.00 Hz


In [38]:
ia = '../dataset-s7/IA/OpenBCI-RAW-2023-09-28_16-51-25_IA.txt'
ia_ob = np.loadtxt(ia, delimiter=',', skiprows=5, usecols=range(1, 9))

basal = '../dataset-s7/TF/OpenBCI-RAW-2023-11-07_13-17-01_TF.txt'
basal_ob = np.loadtxt(basal, delimiter=',', skiprows=5, usecols=range(1, 9))

In [39]:
# Aula IA
ia_timeranges = [
    "6:00 - 10:17",
]

# Basal (TF)
basal_timerange = [
    "3:28 - 4:28"
]

In [40]:
ia_index = []
ia_index = convert_time_range_to_index(ia_timeranges[0])

basal_index = []
basal_index = convert_time_range_to_index(basal_timerange[0])

data_cut_ia = ia_ob[ia_index[0]:ia_index[1], :]
data_cut_basal = basal_ob[basal_index[0]:basal_index[1], :]

X = {
    'ia': mne.io.RawArray(data_cut_ia.T, info),
    'basal': mne.io.RawArray(data_cut_basal.T, info),
}

Creating RawArray with float64 data, n_channels=8, n_times=64250
    Range : 0 ... 64249 =      0.000 ...   256.996 secs
Ready.
Creating RawArray with float64 data, n_channels=8, n_times=15000
    Range : 0 ... 14999 =      0.000 ...    59.996 secs
Ready.


### Filtragem dos dados

O laço a seguir aplica dois filtros nos dados. Primeiramente, atenua-se com um filtro _notch_ a frequência de 60Hz de forma a evitar a interferência da rede elétrica e, posteriormente, obtém-se a faixa de frequência desejada de 4 a 100Hz com um filtro passa faixa.

In [41]:
# TODO: filtrar corretamente os dados que são usados para SNR (basal)

for key in X:
    X[key].notch_filter(freqs=60)
    X[key].filter(l_freq=4, h_freq=100)

# X['ia'].notch_filter(freqs=60)
# X['ia'].filter(l_freq=4, h_freq=100)

Filtering raw data in 1 contiguous segment
Setting up band-stop filter from 59 - 61 Hz

FIR filter parameters
---------------------
Designing a one-pass, zero-phase, non-causal bandstop filter:
- Windowed time-domain design (firwin) method
- Hamming window with 0.0194 passband ripple and 53 dB stopband attenuation
- Lower passband edge: 59.35
- Lower transition bandwidth: 0.50 Hz (-6 dB cutoff frequency: 59.10 Hz)
- Upper passband edge: 60.65 Hz
- Upper transition bandwidth: 0.50 Hz (-6 dB cutoff frequency: 60.90 Hz)
- Filter length: 1651 samples (6.604 s)

Filtering raw data in 1 contiguous segment
Setting up band-pass filter from 4 - 1e+02 Hz

FIR filter parameters
---------------------
Designing a one-pass, zero-phase, non-causal bandpass filter:
- Windowed time-domain design (firwin) method
- Hamming window with 0.0194 passband ripple and 53 dB stopband attenuation
- Lower passband edge: 4.00
- Lower transition bandwidth: 2.00 Hz (-6 dB cutoff frequency: 3.00 Hz)
- Upper passband e

Método auxiliar responsável pela rotulação de uma amostra. Dada uma amostra (psd), retorna os rótulos 'focus' ou 'not_focus'. A função determina o rótulo através do cálculo de qual banda de frequência é a dominante ao longo de uma janela de tempo específica.

In [42]:
def label_data(freqs, psd):
    
    # Definindo os limites das bandas de frequência (em Hz)
    theta_band = (4, 8)       # Theta: 4 - 8 Hz
    alpha_band = (8, 13)      # Alpha: 8 - 13 Hz
    beta_band = (13, 30)      # Beta: 13 - 30 Hz
    gamma_band = (30, 100)    # Gamma: 30 - 100 Hz
    
    # Calculando a média dos 8 eletrodos (transformando em um ndarray unidimensional)
    X_avg = np.average(psd, axis=0)

    # Encontrando os índices correspondentes às frequências de interesse
    theta_idxs = np.where((freqs >= theta_band[0]) & (freqs <= theta_band[1]))[0]
    alpha_idxs = np.where((freqs >= alpha_band[0]) & (freqs <= alpha_band[1]))[0]
    beta_idxs = np.where((freqs >= beta_band[0]) & (freqs <= beta_band[1]))[0]
    gamma_idxs = np.where((freqs >= gamma_band[0]) & (freqs <= gamma_band[1]))[0]

    # Calculando a potência em cada banda de frequência por meio da integração da PSD
    bands = [
        np.sum(X_avg[theta_idxs]),
        np.sum(X_avg[alpha_idxs]),
        np.sum(X_avg[beta_idxs]),
        np.sum(X_avg[gamma_idxs])
    ]
    
    # Determinando qual banda é a dominante (maior potência)
    dominant_band = np.argmax(bands)
    
    # Identificando se a banda dominante nesse trecho é beta ou gamma
    if dominant_band == 2 or dominant_band == 3:
        return 'focus' # se sim, rotula esse trecho como "focus"
    else:
        return 'not_focus' # se não, rotula como "not_focus"

    

### Janela Deslizante

In [43]:
sr = 250            # Taxa de amostragem dos dados do EEG (250Hz)
jump = 5            # Tamanho da janela de análise (5 em 5 segundos)
size = sr * jump    # Número de pontos de dados em cada janela de análise

samples = {
    'X': [], # Amostras
    'Y': []  # Rótulos
}

# Obtendo apenas os dados da aula IA
data = X['ia'].copy()
data.set_eeg_reference(ref_channels='average', projection=False)

# Percorre os dados em incrementos de sr (1 segundo) extraindo janelas de tamanho size (5s)
for i in range(0, int(data.times[-1] - jump), 1):
    
    # Calculando o intervalo da janela em termos de tempo (tmin = i, tmax = i + 5seg)
    tmin = i
    tmax = i + jump

    # Obtendo os dados da janela/intervalo calculada
    cut = data.copy().crop(tmin=tmin, tmax=tmax).get_data()

    # Número de pontos por segmento
    n_per_seg = 128

    # Quantidade de sobreposição entre segmentos
    n_overlap = n_per_seg // 2 # 64
    
    # Calculando a densidade espectral de potência (PSD)
    freqs, cut_psd = welch(cut, fs=sr, nperseg=n_per_seg, noverlap=n_overlap)
    
    # Rotulando a amostra de 5 seg (cut_psd) como "focus" ou "not_focus"
    label = label_data(freqs, cut_psd)
    
    # Associando uma amostra a um rótulo no dict samples
    # (cada posição i da lista X (amostra) é respectiva ao rótulo da posição i do array Y)
    samples['X'].append(cut_psd)
    samples['Y'].append(label)

print(samples)

EEG channel type selected for re-referencing
Applying average reference.
Applying a custom ('EEG',) reference.


{'X': [array([[2.13128088e-01, 1.86248556e+00, 5.42380619e+00, 4.46534440e+00,
        2.29831675e+00, 1.23600991e+00, 6.41309687e-01, 4.91916772e-01,
        5.17292899e-01, 4.11144730e-01, 2.97452742e-01, 2.59109350e-01,
        2.69047725e-01, 2.41529474e-01, 1.73724578e-01, 1.52014661e-01,
        1.05753914e-01, 6.36392451e-02, 1.06974448e-01, 1.04995000e-01,
        8.09629099e-02, 4.48942437e-02, 4.07024588e-02, 4.43110407e-02,
        4.91851586e-02, 4.69732231e-02, 4.51641174e-02, 4.26668805e-02,
        3.10790581e-02, 4.34688989e-02, 8.30066050e-02, 1.20882753e-01,
        5.48743270e-02, 3.16463283e-02, 2.00610552e-02, 2.42284507e-02,
        4.50606659e-02, 2.63893456e-02, 1.75979236e-02, 1.65252428e-02,
        1.60917601e-02, 2.22940936e-02, 1.60914787e-02, 1.10741208e-02,
        1.36976367e-02, 2.00673660e-02, 1.25928506e-02, 1.37198062e-02,
        6.50380002e-03, 9.96524087e-03, 1.71552214e-02, 1.14211181e-02,
        1.19183429e-02, 5.79808371e-03, 7.02399772e-03, 5

### Estimando o ruído de fundo através do sinal basal

In [44]:
# Convertendo o tipo dos dados filtrados de objeto RawArray para ndarray
ndarray_data_basal = X['basal'].copy().get_data()

# Transformando os dados de basal para o domínio da frequência
_, data_basal_frequency = welch(ndarray_data_basal, fs=250, nperseg=512, noverlap=256)

# Lista que armazena as médias de potência para cada canal
noise_power = []

for channel_data in data_basal_frequency:
    # fft_result = np.fft.fft(channel_data)

    # # densidade espectral de potência (PSD)
    # psd = np.abs(fft_result) ** 2
    
    # média da potência no intervalo de tempo sem estímulo
    base_power = np.mean(channel_data)
    noise_power.append(base_power)

# média das médias de potência de todos os canais para estimar o ruído de fundo
estimated_background_noise = np.mean(noise_power)
print(estimated_background_noise)

0.8198100447907466


### Relação Sinal-Ruído de Banda Estreita

Banda estreita refere-se a sinais em que a largura de banda do sinal é pequena em relação à frequência central do sinal. Nesse sentido, a SNR de banda estreita é aplicada quando o sinal e o ruído ocupam uma faixa de frequência muito restrita. Ela pode ser observada pela seguinte equação:

$SNR_{banda\ estreita} = 10 \cdot \log_{10}\left(\frac{\text{energia total do espectro}}{\text{média das amplitudes nas frequências vizinhas}}\right)$

### Relação Sinal-Ruído de Banda Larga

Por outro lado, banda larga refere-se a sinais onde a largura de banda do sinal é grande, abrangendo uma ampla faixa de frequências. Dessa maneira, a SNR de banda larga aplica-se a situações nas quais tanto o sinal quanto o ruído ocupam uma larga faixa de frequências é definido da seguinte forma:

$SNR_{banda\ larga} = 10 \cdot \log_{10}\left(\frac{\text{energia total do espectro}}{\text{energia total do espectro de amplitude}}\right)$

### Aplicando as SNRs de Banda Estreita e Larga para o sinal de interesse

In [45]:
# Criando cópias profundas das listas para garantir que as originais não sejam modificadas
X_copy = copy.deepcopy(samples['X']) # 251 elementos
Y_copy = copy.deepcopy(samples['Y']) # 251 elementos

# Lista de ndarrays (aqui, cada ndarray é uma amostra de 5 seg de dados)
array_of_ndarrays = X_copy
narrow_band_SNR_list = []
wide_band_SNR_list = []

# Calculando as características SNRs sobre cada amostra
for ndarray in array_of_ndarrays:

    # Subtração matricial entre cada elemento de uma lista de amostra e o ruído de fundo (sinal basal)
    target_amplitudes_adjusted = ndarray - estimated_background_noise

    # Obtendo a SNR de banda estreita
    narrow_band_SNR = 10 * np.log10(target_amplitudes_adjusted / estimated_background_noise)
    print(narrow_band_SNR)
    narrow_band_SNR_list.append(narrow_band_SNR)
    print(narrow_band_SNR.shape)

    # Obtendo a SNR de banda larga
    total_power = np.sum(target_amplitudes_adjusted)
    wide_band_SNR = 10 * np.log10(target_amplitudes_adjusted / total_power)
    print(wide_band_SNR)
    wide_band_SNR_list.append(wide_band_SNR)
    print(wide_band_SNR.shape)

[[         nan   1.04435942   7.49421716   6.4804796    2.56110064
   -2.94411303          nan          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan]
 [         nan          nan   1.01418436   1.4290951   -2.9331339
           nan          nan          nan          nan         

  narrow_band_SNR = 10 * np.log10(target_amplitudes_adjusted / estimated_background_noise)
  wide_band_SNR = 10 * np.log10(target_amplitudes_adjusted / total_power)


[[         nan  -8.88597991   5.2809913    5.06822842   1.36931887
   -2.80590009  -5.99817044          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan]
 [         nan          nan  -3.42418346  -0.07017548  -6.66682002
           nan          nan          nan          nan        

[[         nan   0.3918409    6.87078109   3.72628193   1.77774863
    1.86347878  -0.76281218  -3.4255065           nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan
           nan          nan          nan          nan          nan]
 [         nan          nan   0.67262787   1.56610109  -1.00808387
           nan          nan          nan          nan        

In [46]:
# teste (TODO: apagar)
print(len(wide_band_SNR_list))
print(len(wide_band_SNR))

print(len(narrow_band_SNR_list))
print(len(narrow_band_SNR))

251
8
251
8


### Classificador SVM

In [None]:
# Concatenando as cópias
concatenated_samples = X_copy + Y_copy

X = np.array(concatenated_samples[:251])  # features (atributos de entrada)
y = np.array(concatenated_samples[251:])  # labels (rótulos de saída)

# Dividindo os dados em treino (70%) e teste (30%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Normalizando os dados com Standard Scaler
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)  # Normaliza os dados de treino
X_test_scaled = scaler.transform(X_test)        # Normaliza os dados de teste

# Instanciando o classificador SVM
svm_model = SVC(kernel='linear')

# Treinando o modelo SVM com as características selecionadas
svm_model.fit(X_train_scaled, y_train)

# Realizando a predição nos dados de teste
y_pred = svm_model.predict(X_test_scaled)

# Avaliando o desempenho (acurácia)
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia do SVM: {accuracy * 100:.2f}%")


# Aplicando a redução de dimensionalidade RFE para obter apenas 10 características
# selector = RFE(svm_model, n_features_to_select=10, step=1)
# selector = selector.fit(X_train_scaled, y_train)

### Tarefa para aplicação das características SNR:

Agora que temos os dois vetores de características SNR, podemos utilizar buffers com e sem a evocação dos rítmos que caracterizam o foco.

#### Divisão dos dados

Utilizando a iteração (por exemplo, de 5 segundos caracterizada pela janela) realizada no sinal a cada ~1 segundo, realize a rotulação dos dados de interesse (Beta e Gamma). Ou seja, cada amostra será um sinal de 5 segundos (1250 pontos de 8 canais). A janela que não for qualificada como Beta ou Gama por exemplo, poderá ser rotulada com "desfoque". Se acharem interessante, adicionar rótulos do ritmo Theta também.

No caso do sinal que representa o basal (se tiverem) poderá pegar um único sinal de aproximadamente 30 segundos para ser utilizado na equação de ruído, que irá ter como resultado um único valor. Lembrando que o valor de ruído deve atuar no sinal no domínio da frequência.

#### Classificação

Cálculo: diferença entre tempo inicial (em minutos) e final (tbm em min) dada por: (tempo_min * 60) * 250. Aplicando aos dados reais para criar o vetor de características:

- Diferença: 90000 - 154250 com 8 canais
- Pontos totais: 64250 com 8 canais

- 64.250 (pontos totais) / 250 (taxa de amostragem) = 257 segundos
- 257 / 5 (tamanho da janela sem sobreposição) = 51 amostras (51,4)

<br>

Em nossos dados simulados, temos 150.000 pontos com 8 canais. A utilização desses dados funcionará da seguinte forma para a criação do vetor de características:

- 150.000 (pontos totais) / 250 (taxa de amostragem) = 600 segundos
- 600 / 5 (tamanho da janela sem sobreposição) = 120 amostras

|    | SNRw1                | SNRw2 | ... | SNRw8 | SNRn1 | SNRn2 | ... | SNRn8 |
|-----|----------------------|-------|-----|-------|-------|-------|-----|-------|
| 1   | [w1, w2, ..., w1250] |       |     |       |       |       |     |       |
| 2   |                      |       |     |       |       |       |     |       |
| ... |                      |       |     |       |       |       |     |       |
| 120 |                      |       |     |       |       |       |     |       |

- Agora transforme cada um dos vetores de pontos no domínio da frequência (1250 pontos) em um único valor real. Neste caso pode ser utilizado tanto a média como a mediana (ou ambos). Se utilizarmos as duas, teremos no final 32 colunas de características:
    - 8 canais
    - SNR narrow e SNR wide (2)
    - Média e mediana (2)

|     | 1   | ... | 32 |
|-----|-----|-----|----|
| 1   | w'  | ... |    |
| 2   | ... |     |    |
| ... |     |     |    |
| 120 |     |     |    |



Após obter o vetor de característica, realizar a divisão dos dados em treinamento e teste (normalmente uma proporção de 70 e 30% respectivamente) e aplicar para o classificador SVM.

**PLUS**: Ao final da tarefa, verificar a melhora dos resultados utilizando um seletor de características. Neste caso, podemos utilizar o RFE (*Recursive Feature Elimination*) em uma fase anterior a classificação para reduzir as 32 características se for necessário.


