## Melhorando entendimento e acertos dos `datasets`

Neste notebook será apresentado algumas tarefas úteis que podem melhorar o entendimento do que é um "sinal bom" comparado a ruídos de dados em dados `SSVEP`.

Além disso, será listado uma série de melhorias que vão desde a etapa de extração de características até a classificação dos dados. Conhecemos estas melhorias como *tunning*.

### Visualização gráfica do sinal SSVEP

Para visualização do sinal SSVEP, vamos filtrar apenas o tempo em que houve estímulos para o `BETA dataset`.

### Melhoramentos das etapas de classificação

#### Extração de características

Basicamente, para levantamento das características, levamos em consideração apenas duas: `narrow-band SNR` e `wide-band SNR`. Vamos também adicionar duas outras características em cima dos dados estimulados no domínio da frequência (`FFT`): (1) amplitude dos targets e (2) média dos valores centrais dos targets.

Para cada característica estima-se que tenhamos a seguinte matriz: (160, 64, 40). Como teremos 4 características, a matriz final ficará com a seguinte dimensionalidade: (160, 64, 160) $\rightarrow$ (160, 10240).

**Observação**: Como os targets estão muito próximos um do outro, é possível que não tenha mais de um valor para calcular a média. Desta forma, será possível obter apenas a característica de "maior valor" ou amplitude do sinal no domínio da frequência.

#### Seleção de características

Nesta etapa, são selecionadas as características que mais afetam positivamente no resultado final da classificação. Segue uma lista de métodos de seleção de características nesta [página do projeto sklearn](https://scikit-learn.org/stable/modules/feature_selection.html).

Seria interessante mostrar o resultado para os dados do trabalho, para os seguintes métodos de seleção de características:
- `VarianceThreshold`
- `Univariate feature selection`
    - escolha o que mais for "interessante": `SelectKBest`, `SelectPercentile` e `GenericUnivariateSelect`
- `Recursive feature elimination (RFE)`

#### Classificação e rotulação dos dados

Com as atividades anteriores já realizadas, é possível aplicarmos um classificador simples para testarmos os dados. O classificador `SVM` (*Support Vector Machine*) pode nos mostrar bons resultados (se levarmos em consideração trabalhos relacionados da área).

Após a primeira impressão do classificador, já é possível revisitarmos passos anteriores para alterá-los, a fim de buscar melhores resultados de acurácia do classificador. Sugere que este seja um primeiro desafio após a implementação do classificador.

Outros passos interessantes incluem dividir os dados em diversos *folds*. Para isso pode ser utilizado o método [KFold](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html)

Inicialmente, temos que desenvolver o vetor de rótulos que está relacionado com os nossos dados.

#### Visualização dos dados

Para verificar o estímulo SSVEP ocorrendo, sugere plotar os dados no momento correto em que há este estímulo (0,5 - 2,5 segundos para os 15 primeiros participantes)

In [8]:
from scipy.io import loadmat
import numpy as np

data_mat = loadmat("./datasets/beta/S68.mat")
data_mat = data_mat['data']

In [90]:
# 0-sub, 1-age, 2-gender, 3-chan, 
# 4-freqs, 5-phases, 6-bci_quotient,
# 7-wide_snr, 8-narrow_snr, 9-srate

eeg_data = data_mat[0][0][0]
data = data_mat[0][0][1][0][0]

chs = [d[3][0] for d in data[3]]
labels = data[4][0]

In [92]:
eeg_data.shape

(64, 1000, 4, 40)