# Inicialização dos Dados

Abrir os dados dos arquivos e formata-los para o processamento dos dados.

### Import's

Importar as bibliotecas que serão utilizadas.


In [1]:
from scipy.io import loadmat                # Biblioteca para carregar arquivos .mat
import numpy as np                          # Biblioteca do numpy para manipulação de matrizes

### Carregamento

Carregar as bases de dados.

In [2]:
# Ativa/destiva o uso do Google Drive

if False:
    from google.colab import drive
    drive.mount('/content/drive')
    path = 'drive/MyDrive/'
else:
    path = ''

In [3]:
avi_data = list()                               # Lista para armazenar os dados dos arquivos .mat

for i in range(1,5):
  avi_data.append(loadmat(f"{path}datasets/avi/single/Sub{i}_singletarget.mat"))

### Extração

Extração dos dados

In [4]:
X = [d['Data'][0][0][0] for d in avi_data]      # Lista com os dados dos participantes
y = [d['Data'][0][0][1] for d in avi_data]      # Lista com os rótulos (sequências) dos participantes


print("Divisão dos dados:")
for data in X:
    print(data.shape)

print("\nDivisão dos rótulos (sequências):")
for data in y:
    print(data)

Divisão dos dados:
(15360, 27)
(15360, 26)
(15360, 21)
(15360, 21)

Divisão dos rótulos (sequências):
[[10.  10.  10.  12.  12.  12.   6.5  6.5  6.5  6.   6.   6.   6.   6.
   6.   7.5  7.5  7.5  7.   7.   7.   8.2  8.2  8.2  9.3  9.3  9.3]]
[[10.  10.  10.   6.5  6.5  6.5  6.5  6.   6.   6.   7.5  7.5  7.5  7.
   7.   7.   7.   7.   7.   8.2  8.2  8.2  8.2  9.3  9.3  9.3]]
[[10.  10.  10.   6.5  6.5  6.5  6.   6.   6.   7.5  7.5  7.5  7.   7.
   7.   8.2  8.2  8.2  9.3  9.3  9.3]]
[[10.  10.  10.   6.5  6.5  6.5  6.   6.   6.   7.5  7.5  7.5  7.   7.
   7.   8.2  8.2  8.2  9.3  9.3  9.3]]


### Padronização

Padronização dos dados de cada participante.

In [5]:
# Funcao para encontrar os indices dos valores que repetem mais de 3 vezes
def encontraValoresRepetidos(vetor):
    indices = []
    
    for i in range(3, len(vetor)):
        if vetor[i] == vetor[i - 1] == vetor[i - 2] == vetor[i - 3]:
            indices.append(i)
    
    return indices

In [6]:
data = list()             # Lista para armazenar os dados padronizados dos participantes
labels = list()           # Lista para armazenar os rótulos padronizados dos participantes


# Padronizar os dados dos participantes (remover os dados da sequência 12 e os dados que aparecem mais de 3 vezes)
for i in range(len(y)):
  # Buscar os indices onde os rótulos são iguais a 12 (sequência 12)
  idx12 = np.where(y[i][0] == 12)

  # Buscar os indices dos valores que apareceram mais de 3 vezes
  idxRptds = encontraValoresRepetidos(y[i][0])

  
  # Salvar os dados padronizados
  data.append( X[i][:, list(set(range(X[i].shape[1])) - set(idx12[0]) - set(idxRptds))] )
  labels.append( y[i][:, list(set(range(y[i].shape[1])) - set(idx12[0]) - set(idxRptds))] )


data = np.array(data)
labels = np.array(labels)

print(data.shape, labels.shape)
print()

(4, 15360, 21) (4, 1, 21)



### Salvar Dados

Salvar os dados padronizados de cada participante em estrutura do numpy em arquivos separados.

In [7]:
# Salvando os dados e rótulos padronizados em arquivos .npy.

for i in range(len(X)):
  np.save(f"{path}datasets/avi/single/data_sub{i+1}.npy", X[i])
  np.save(f"{path}datasets/avi/single/labels_sub{i+1}.npy", y[i])

np.save(f"{path}datasets/avi/single/data.npy", data)
np.save(f"{path}datasets/avi/single/labels.npy", labels)

# Tarefas:



*   Padronizar os dados de todos os 4 participantes dos dados single-target e salvar de forma adequada para utilização nos próximos notebooks. (OK)
*   Realizar o mesmo estudo para os dados multi-target. (OK)

