# *Datasets*

Os *datasets* (conjuntos de dados) são o principal insumo dos processos de análise de dados e de ciência de dados. Eles são representados normalmente por dados tabulares em formato de planilha onde as linhas são os registros dos acontecimentos e as colunas são as características desses acontecimentos.

Existem variadas formas de salvar um *dataset*, na área de processamento de dados as formas mais comuns envolvem salvar os dados em arquivos nos formatos `.xlsx`, `.csv` ou `.tsv`. Embora também seja possível trabalhar com dados guardados em bases de dados, obtendo as informações por meio de consultas a base.

Neste `notebook` será apresentado o carregamento do *dataset*  [*DETECTING INDIVIDUAL AND COMBINED FINGERS MOVEMENTS*](https://www.rami-khushaba.com/electromyogram-emg-repository.html).

## Detalhes do *dataset*
>É uma boa prática prover um resumo do *dataset* utilizado, pontuando características importantes para o processo da analise dos dados, explicando como ele está estruturado e colocando as devidas refências quando aplicável.

*dataset*: DETECTING INDIVIDUAL AND COMBINED FINGERS MOVEMENTS \[1\]


Dez voluntários, com idade entre 20 e 35 anos foram recrutados para realizarem movimentos com os dedos.
Os voluntários possuem os membros normais e sem desordem neurológica ou muscular. Os voluntários estavam sentados em uma poltrona com o braço apoiado e fixado em uma posição, para evitar efeitos de posições diferentes do membro. Os dados foram coletados utilizando **2 canais EMG** e processados pelo software Bagnoli Desktop EMG Systems da Delsys Inc. Os sinals EMG coletados dos eletrodos foram amplificados utilizando o amplificador Delsys Bagnoli-8 para um ganho total de 1000. Um conversor analógico digital de 12 bits foi utilizado para amostrar o sinal a **4000 Hz**.

Os sinais EMG foram filtrados por um filtro passa-banda entre 20 e 450 Hz com um filtro *notch* para remover as faixas de 50 Hz provenientes da rede elétrica.
Sinais de dez classes de movimentos de dedos, individuais e combinados, foram coletados. Para cada classe foram realizados seis ensaios.

- Flexão individual:
  - Polegar (T-T)
  - Indicador (I-I)
  - Médio (M-M)
  - Anular (R-R)
  - Minimo (L-L)

- Flexão combinada:
  - Polegar-Indicador (T-I)
  - Polegar-Médio (T-M)
  - Polegar-Anular (T-R)
  - Polegar-Minimo (T-L)
  - Punho fechado (HC)

Os arquivos do *dataset* estão organizados da seguinte forma: há uma pasta para cada voluntário, o padrão de nomenclatura das pastas é `EMG-S<número_do_voluntário>`, por exemplo, para o voluntário 1 temos a pasta
 `EMG-S1`, para o voluntário 2 temos a pasta `EMG-S2`, e assim sucessivamente.

Dentro de cada pasta há um arquivo `.csv` para cada coleta. São seis ensaios por classe, totalizando 60 arquivos `.csv`. Cada arquivo possui duas colunas, sem cabeçalho. Cada coluna representa os dados de um canal EMG. A nomenclatura dos arquivos segue o padrão `<nome_da_classe><número_da_coleta>.csv`, por exemplo, a primeira coleta do arquivo da classe Polegar, representado por T-T, tem o nome `T-T1.csv`, o arquivo da segunda coleta tem o nome `T-T2.csv`, e assim sucessivamente.

\[1\] R. N. Khushaba, M. Takruri, S. Kodagoda, and G. Dissanayake, "Toward Improved Control of Prosthetic Fingers Using Surface Electromyogram (EMG) Signals", Expert Systems with Applications, vol 39, no. 12, pp. 10731–10738, 2012.
Disponível em: (https://www.rami-khushaba.com/electromyogram-emg-repository.html)


>Com a análise dos detalhes do *dataset* utilizado descobrimos dados importantes, como a frêquencia de amostragem e o fato de que esse *dataset* já teve seus dados filtratos para remoção de interferências da rede elétrica. Estas informações serão úteis em etapas posteriores.

## Carregando o *dataset*

O carregamento do *dataset* varia conforme o formato que os dados estão armazenados e estruturados. Vimos que temos os dados no formato `.csv`, utilizaremos a biblioteca [pandas](https://pandas.pydata.org) para realizar o carregamento e a biblioteca [numpy](https://numpy.org) para organizar os dados em arrays para facilitar a manipulação destes dados futuramente.


In [1]:
import pandas as pd

# carrega um arquivo .csv para um pandas dataframe
t_t1 = pd.read_csv('./lib/data/EMG_2Chs/EMG-S1/T-T1.csv', delimiter=',', header=None)

# imprime o dataframe
print(t_t1)

                  0         1
0     -3.588744e-04 -0.000056
1     -3.778360e-04 -0.000065
2     -3.917736e-04 -0.000067
3     -3.930701e-04 -0.000051
4     -3.933943e-04 -0.000023
...             ...       ...
19995 -1.028112e-04 -0.000007
19996 -6.018800e-05  0.000018
19997 -6.176923e-08  0.000051
19998  6.784360e-05  0.000087
19999  1.299146e-04  0.000115

[20000 rows x 2 columns]


In [2]:
# converte o dataframe do pandas para um numpy array
t_t1 = t_t1.to_numpy()

# imprime o shape do numpy array
print(t_t1.shape)
# neste exemplo devemos ter um shape de (20000, 2), 20000 linhas e 2 colunas, onde cada coluna é um canal.

(20000, 2)


Realizamos o carregamento de um ensaio de uma classe de um voluntário e o tranformamos em um numpy array. É preciso carregar todas os ensaios de cada classe, podemos usufluir do padrão da nomenclaruta dos arquivos e criar um laço de repetição para o carregamento destes dados

In [3]:
import numpy as np

classes = ['T-I','T-L','T-M','T-R','T-T','HC-','I-I','L-L','M-M','R-R']

# variável para armazenar os dados das classes
data = []

for classe in classes:
    # variável para armazear os dados dos ensaios
    trials = []
    for i in range(1, 7): # de 1 a 6 (Qt. de ensaios)
        # carrega o arquivo .csv para um pandas dataframe
        dataframe = pd.read_csv(f'./lib/data/EMG_2Chs/EMG-S1/{classe}{i}.csv', delimiter=',', header=None)
        
        # converte os dados do um ensaio para numpy array e o adiciona na lista de ensaios
        trials.append(dataframe.to_numpy())
    
    # adiciona os ensaios de uma classe a lista de dados das classes
    data.append(trials)

# transforma os dados das classes em um numpy array
data = np.array(data)

# imprime o shape do numpy array
print(f'{data.shape} - (classes, ensaios, linhas, canais)')
# neste momento devemos ter um shape de (10, 6, 20000, 2), sendo 10 classes, 6 ensaios, 20000 linhas e 2 canais


(10, 6, 20000, 2) - (classes, ensaios, linhas, canais)


O shape atual dos dados não é adequado para os processamentos posterior que serão aplicados sobre eles, o ideal é que as linhas com os dados dos eletrodos estejam no último eixo do numpy array, para corrigir isso podemos utilizar a função *swapaxes* do próprio numpy array

In [4]:
# troca os eixos 2 e 3 do numpy array
data = data.swapaxes(2, 3)

# imprime o shape do numpy array
print(f'{data.shape} - (classes, ensaios, canais, linhas)')
# neste momento devemos ter um shape de (10, 6, 2, 2000), sendo 10 classes, 6 ensaios, 2 canais e 20000 linhas

(10, 6, 2, 20000) - (classes, ensaios, canais, linhas)


**Desafio:** Utilizando o padrão de nomenclatura das pastas que guardam os arquivos do *dataset*, implemente uma função que realizará o carregamento dos dados para todas os voluntários do *dataset*. Essa função deve retornar um dicionário python cuja as chaves sejam os voluntários e o valor de cada chave seja um `numpy array` representando os dados daquele voluntário.

In [5]:
def collect_all_data():
    file_prefix = 'EMG-S'

    # variável para armazenar os dados das classes de cada sujeito
    all_data = dict()

    for index in range(1, 11):
        all_trials = []
        
        for classe in classes:
            # variável para armazear os dados dos ensaios
            trials = []
            for i in range(1, 7): # de 1 a 6 (Qt. de ensaios)
                # carrega o arquivo .csv para um pandas dataframe
                dataframe = pd.read_csv(f'./lib/data/EMG_2Chs/{file_prefix}{index}/{classe}{i}.csv', delimiter=',', header=None)

                # converte os dados do um ensaio para numpy array e o adiciona na lista de ensaios
                trials.append(dataframe.to_numpy())

            # adiciona os ensaios de uma classe a lista de dados das classes
            all_trials.append(trials)
        
        all_data[file_prefix.split('-')[-1] + str(index)] = np.array(all_trials)
    
    return all_data


data = collect_all_data()

print(str(data['S1'].shape) + ' - (classes, ensaios, linhas, canais)')

(10, 6, 20000, 2) - (classes, ensaios, linhas, canais)


### Melhorando o carregamento dos dados

Durante o desenvolvimento de uma analise de dados é comum precisar rodar o código várias vezes, sendo ncessário carregar sempre os dados dos arquivos do *dataset* e realizar a conversão para numpy array.
É possível, entretando, salvar os dados do numpy array em um arquivo `.npy`, desta forma sempre que o código for executado podemos verificar se o arquivo já existe e realizar um rápido carregamento dos dados já no formato numpy array, sem a necessidade de carregar os arquivos do *dataset* e realizar conversões.

In [15]:
# Salva o numpy array 'data' em './lib/data/converted/s1.npy'
np.save('./lib/data/converted/s1', data)
print(np.load('./lib/data/converted/s1.npy'))
# Lembre-se de que o diretório deve existir, caso contrário uma exceção será lançada

-0.0002476975


**Desafio:** Implemente uma função que carregue os dados de todos os voluntários do *dataset*. Para cada voluntário a função deve verificar a existencia de um arquivo `.npy`, caso o arquivo exista ele deve ser carregado, caso contrário um carregamento dos arquivos do *dataset* deve ser realizado, salvando os dados em uma arquivo `.npy` ao final. Essa função deve retornar um dicionário python contendo os dados de todos os voluntários.

In [7]:
def load_csv_save_npy(subject):
    # variável para armazenar os dados das classes
    data = []

    for classe in classes:
        # variável para armazear os dados dos ensaios
        trials = []
        for i in range(1, 7): # de 1 a 6 (Qt. de ensaios)
            # carrega o arquivo .csv para um pandas dataframe
            dataframe = pd.read_csv(f'./lib/data/EMG_2Chs/{subject}/{classe}{i}.csv', delimiter=',', header=None)

            # converte os dados do um ensaio para numpy array e o adiciona na lista de ensaios
            trials.append(dataframe.to_numpy())

        # adiciona os ensaios de uma classe a lista de dados das classes
        data.append(trials)

    # transforma os dados das classes em um numpy array
    data = np.array(data)

    # Salva o numpy array 'data' em './lib/data/converted/{subject}.npy'
    np.save(f'./lib/data/converted/{subject.split("-")[-1]}', data)

def load_all_data():
    from pathlib import Path
    
    file_prefix = 'EMG-S'
    
    all_data = dict()
    for index in range(1, 11):
        fileObj = Path(f'./lib/data/converted/{file_prefix.split("-")[-1]}{index}.npy')
        
        if not fileObj.exists():
            load_csv_save_npy(file_prefix + str(index))
        
        all_data[file_prefix.split('-')[-1] + str(index)] = np.load(f'./lib/data/converted/{file_prefix.split("-")[-1]}{index}.npy')
    
    return all_data   
        
        
data = load_all_data()

print(str(data['S1'].shape) + ' - (classes, ensaios, linhas, canais)')

(6, 20000, 2) - (classes, ensaios, linhas, canais)


**Desafio:** Escolha junto com seu professor um *dataset* de EMG e implemente uma função que retorne todos os dados deste *dataset* em um numpy array, lembrando de implementar a funcionalidade de salvar e carregar os dados do numpy array nos arquivos `.npy`

In [None]:
def load_dataset(name):
    from pathlib import Path
    
    all_data = dict()
    fileObj = Path(f'./lib/data/converted/{name}.npy')
        
    if not fileObj.exists():
        load_csv_save_npy(name)
        
    all_data[name.split('-')[-1]] = np.load(f'./lib/data/converted/{name.split("-")[-1]}.npy')
    
    return all_data   
        
        
data = load_dataset('EMG-S10')

print(str(data['S10'].shape) + ' - (classes, ensaios, linhas, canais)')