In [19]:
import json
import shutil
from pathlib import Path

In [20]:
import scipy
import numpy as np

In [21]:
TASKS_PATH = Path("tasks.json")
FOURIER_COEFFS_DIR = Path("fourier_coeffs")
TASKS_DIR = Path("dataset/CRWU")

In [22]:
task_map = json.loads(TASKS_PATH.read_text())

In [23]:
task_map

{'0': [0, 1, 2, 3, 4, 5, 6],
 '1': [0, 1, 2, 3, 7, 8, 9],
 '2': [0, 4, 5, 6, 7, 8, 9],
 '3': [0, 1, 2, 4, 5, 7, 8],
 '4': [0, 2, 3, 5, 6, 8, 9],
 '5': [0, 1, 3, 4, 6, 7, 9]}

In [24]:
if TASKS_DIR.exists():
    shutil.rmtree(TASKS_DIR)

In [25]:
for task, labels in task_map.items():
    task_dir = TASKS_DIR / f"CRWU{task}"
    task_dir.mkdir(parents=True)

    for load in range(4):
        # Train data
        train_data_name = f"C{task}_{load}"
        train_data_path = task_dir / f"{train_data_name}.mat"
        train_labels = sorted(labels)
        train_data = []

        for label in train_labels:
            coeffs_path = FOURIER_COEFFS_DIR / "train" / str(label) / f"{load}.mat"
            coeffs_samples = scipy.io.loadmat(str(coeffs_path))["data"]
            ordered_label = train_labels.index(label)
            ordered_labels = ordered_label * np.ones((len(coeffs_samples), 1))
            train_data.extend(np.concatenate([coeffs_samples, ordered_labels], axis=1))

        train_data = np.vstack(train_data)
        scipy.io.savemat(str(train_data_path), {train_data_name: train_data})

        # Test data
        test_data_name = f"C{task}_{load}_"
        test_data_path = task_dir / f"{test_data_name}.mat"
        unknown_labels = list(set(range(10)) - set(train_labels))
        unknown_labels.sort()
        test_labels = train_labels + unknown_labels
        test_data = []

        for label in test_labels:
            coeffs_path = FOURIER_COEFFS_DIR / "test" / str(label) / f"{load}.mat"
            coeffs_samples = scipy.io.loadmat(str(coeffs_path))["data"]
            ordered_label = test_labels.index(label)
            ordered_labels = ordered_label * np.ones((len(coeffs_samples), 1))
            test_data.extend(np.concatenate([coeffs_samples, ordered_labels], axis=1))

        test_data = np.vstack(test_data)
        scipy.io.savemat(str(test_data_path), {test_data_name: test_data})

In [31]:
data_path = Path("dataset/CRWU/CRWU1/C1_0.mat")

In [32]:
data = scipy.io.loadmat(str(data_path))["C1_0"]

In [33]:
data.shape

(241, 2050)

In [34]:
labels = data[:, -1]

In [35]:
labels

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 2., 2., 2., 2., 2., 2., 2.,
       2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 3., 3., 3., 3.,
       3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 4.,
       4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4.,
       4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4.,
       4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4., 4.,
       4., 4., 4., 4., 4., 4., 4., 4., 5., 5., 5., 5., 5., 5., 5., 5., 5.,
       5., 5., 5., 5., 5., 5., 5., 5., 5., 5., 5., 6., 6., 6., 6., 6., 6.,
       6., 6., 6., 6., 6., 6., 6., 6., 6., 6., 6., 6., 6., 6., 6., 6., 6.,
       6., 6., 6., 6., 6., 6., 6., 6., 6., 6., 6., 6., 6., 6., 6., 6., 6.,
       6., 6., 6., 6., 6.