In [30]:
import pandas as pd
import numpy as np
import os
import time
from tqdm import tqdm

In [31]:
column_names = ['ms','ankle_horiz_fw','ankle_vert', 'ankle_horiz_lat','thigh_horiz_fw','thigh_vert', 'thigh_horiz_lat','trunk_horiz_fw','trunk_vert', 'trunk_horiz_lat','annotation']
datadir = 'dataset_fog_release/dataset'
outputdir = 'sliding_window_dataset_no_input_labels/'

subject_files = {'s1': ['S01R01.txt','S01R02.txt'],'s2':['S02R01.txt','S02R02.txt'],'s3':['S03R01.txt','S03R02.txt','S03R03.txt'],
                 's4':['S04R01.txt'],'s5':['S05R01.txt','S05R02.txt'],'s6':['S06R01.txt','S06R02.txt'],'s7':['S07R01.txt','S07R02.txt'],
                 's8': ['S08R01.txt'],'s9': ['S09R01.txt'],'s10':['S10R01.txt']}
subj_file = subject_files["s1"][0]
filename = f'{datadir}/{subj_file}'
df = pd.read_csv(filename,sep=' ', names = column_names)

In [32]:
def extract_experiment_windows(annotations):
    '''Extracts the indices where an active experiment occurs for slicing time series into valid chunks
    annotations : [int]
        an array of annotations where 0 is inactive, 1 is active experiment, and 2 is gait freeze. Interested in the slices
        of this array that are not equal to 0
    '''
    start = None
    stop = None
    windows = []
    for i in range(len(annotations)):
        if annotations[i] != 0 and not start:
            start = i
        if annotations[i] == 0 and start:
            end = i - 1
            windows.append((start,end))
            start = None
            end = None
    return windows

In [33]:

def create_and_save_sliding_windows(subj_data_frame,filename, outputdir, window_size = 1000, columns=['ankle_vert','annotation']):
    '''given a subject's dataframe, this will use extract_experiment_windows to find the time intervals where there is 
    an active experiment, and then return a numpy array of "sliding windows".
    By default, the only column pulled will be vertical ankle acceleration
    i.e. 
    if I have a time series [1,2,3,4,5,6], and a window size of 3, this function returns ([[1],[2],[3]], [4]), ([[2],[3],[4]],[5]), etc. 
    We want something of the form:
    [[ankle_acc1,...,annotation1] ,[ankle_acc2,...,annotation2],...,[ankle_acc_winsize-1,...,annotation_winsize-1]] , [annotation_winsize]
    '''
    experiment_intervals = extract_experiment_windows(subj_data_frame['annotation'])
    df_as_np = subj_data_frame.to_numpy()

    experiment_intervals = extract_experiment_windows(df['annotation'])
    numpy_df = df[columns].to_numpy()
    numpy_df_intervals = []
    X = []
    y = []
    start = time.time()
    for interval in experiment_intervals:
        numpy_df_intervals.append(numpy_df[interval[0]:interval[1]])
    for experiment,n in zip(numpy_df_intervals, range(len(numpy_df_intervals))):
        for i in tqdm(range(len(experiment) - window_size)):
            row = [a[0:3] for a in experiment[i:i+window_size]]
            X.append(row)      
            label = experiment[i+window_size][3]
            y.append(0 if label == 1 else 1)
        np.save(f'{outputdir}{filename[0:6]}experiment{n}/X.npy',X)
        np.save(f'{outputdir}{filename[0:6]}experiment{n}/y.npy',y)

    end = time.time()
    print(end-start)
create_and_save_sliding_windows(df, subj_file, outputdir ,columns = ['ankle_horiz_fw','ankle_vert', 'ankle_horiz_lat', 'annotation'])

100%|██████████████████████████████████████████████████████████████████████████| 18200/18200 [00:06<00:00, 2773.78it/s]
100%|██████████████████████████████████████████████████████████████████████████| 72600/72600 [00:33<00:00, 2146.22it/s]


238.4501757621765


In [34]:
X = np.load('sliding_window_dataset_no_input_labels/S01R01experiment0/X.npy')
y = np.load('sliding_window_dataset_no_input_labels/S01R01experiment0/y.npy')

In [35]:
print(X.shape)
print(y.shape)
print(X[0])
print(np.where(y==1)[0])



(18200, 1000, 3)
(18200,)
[[ -30  990  326]
 [ -30 1000  356]
 [ -20  990  336]
 ...
 [-131  970  366]
 [-111  960  346]
 [ -90 1000  366]]
[]


In [36]:
column_names = ['ms','ankle_horiz_fw','ankle_vert', 'ankle_horiz_lat','thigh_horiz_fw','thigh_vert', 'thigh_horiz_lat','trunk_horiz_fw','trunk_vert', 'trunk_horiz_lat','annotation']
datadir = 'dataset_fog_release/dataset'
outputdir = 'sliding_window_dataset_no_input_labels/'

subject_files = {'s1': ['S01R01.txt','S01R02.txt'],'s2':['S02R01.txt','S02R02.txt'],'s3':['S03R01.txt','S03R02.txt','S03R03.txt'],
                 's4':['S04R01.txt'],'s5':['S05R01.txt','S05R02.txt'],'s6':['S06R01.txt','S06R02.txt'],'s7':['S07R01.txt','S07R02.txt'],
                 's8': ['S08R01.txt'],'s9': ['S09R01.txt'],'s10':['S10R01.txt']}
for subj in subject_files.keys():
    for fname in subject_files[subj]:
        path_to_file = f'{datadir}/{fname}'
        df = pd.read_csv(path_to_file,sep=' ', names = column_names)
        create_and_save_sliding_windows(df, fname, outputdir ,columns = ['ankle_horiz_fw','ankle_vert', 'ankle_horiz_lat','annotation'])

100%|███████████████████████████████████████████████████████████████████████████| 18200/18200 [00:54<00:00, 335.99it/s]
100%|██████████████████████████████████████████████████████████████████████████| 72600/72600 [00:44<00:00, 1618.82it/s]


288.8123211860657


100%|██████████████████████████████████████████████████████████████████████████| 27800/27800 [00:20<00:00, 1359.34it/s]


38.14248251914978


100%|██████████████████████████████████████████████████████████████████████████| 24600/24600 [00:14<00:00, 1699.58it/s]


30.103770971298218


100%|██████████████████████████████████████████████████████████████████████████| 63960/63960 [00:34<00:00, 1858.15it/s]


72.8704833984375


100%|██████████████████████████████████████████████████████████████████████████| 54040/54040 [00:24<00:00, 2223.56it/s]
100%|██████████████████████████████████████████████████████████████████████████| 34840/34840 [00:18<00:00, 1886.58it/s]


183.7208833694458


100%|██████████████████████████████████████████████████████████████████████████| 15640/15640 [00:08<00:00, 1945.57it/s]


15.673861503601074


100%|██████████████████████████████████████████████████████████████████████████| 20120/20120 [00:08<00:00, 2247.57it/s]


18.92753267288208


100%|██████████████████████████████████████████████████████████████████████████| 98840/98840 [00:52<00:00, 1890.34it/s]
100%|██████████████████████████████████████████████████████████████████████████| 31640/31640 [00:19<00:00, 1584.91it/s]


625.4781765937805


100%|██████████████████████████████████████████████████████████████████████████| 18840/18840 [00:11<00:00, 1641.51it/s]
100%|██████████████████████████████████████████████████████████████████████████| 23320/23320 [00:11<00:00, 1963.76it/s]
100%|██████████████████████████████████████████████████████████████████████████| 13080/13080 [00:05<00:00, 2481.09it/s]
100%|████████████████████████████████████████████████████████████████████████████| 8600/8600 [00:03<00:00, 2555.17it/s]


126.2834722995758


100%|██████████████████████████████████████████████████████████████████████████| 34840/34840 [00:13<00:00, 2519.21it/s]
100%|██████████████████████████████████████████████████████████████████████████| 29080/29080 [00:11<00:00, 2491.85it/s]


71.51976609230042


100%|██████████████████████████████████████████████████████████████████████████| 50200/50200 [00:19<00:00, 2531.79it/s]
100%|██████████████████████████████████████████████████████████████████████████| 29720/29720 [00:12<00:00, 2293.91it/s]
100%|██████████████████████████████████████████████████████████████████████████| 24600/24600 [00:12<00:00, 2036.98it/s]


354.3646216392517


100%|████████████████████████████████████████████████████████████████████████████| 6040/6040 [00:03<00:00, 1693.05it/s]
100%|██████████████████████████████████████████████████████████████████████████| 11800/11800 [00:08<00:00, 1455.37it/s]


40.16247582435608


100%|██████████████████████████████████████████████████████████████████████████| 73240/73240 [00:34<00:00, 2144.12it/s]


80.63689684867859


100%|██████████████████████████████████████████████████████████████████████████| 27800/27800 [00:10<00:00, 2697.91it/s]


24.840885639190674


100%|██████████████████████████████████████████████████████████████████████████| 13720/13720 [00:04<00:00, 2909.94it/s]
100%|████████████████████████████████████████████████████████████████████████████| 9240/9240 [00:05<00:00, 1584.36it/s]
100%|██████████████████████████████████████████████████████████████████████████| 12440/12440 [00:06<00:00, 1886.55it/s]
100%|████████████████████████████████████████████████████████████████████████████| 9880/9880 [00:03<00:00, 2584.74it/s]


79.54319643974304


100%|████████████████████████████████████████████████████████████████████████████| 8600/8600 [00:02<00:00, 2916.51it/s]
100%|████████████████████████████████████████████████████████████████████████████| 9880/9880 [00:03<00:00, 2681.66it/s]
100%|██████████████████████████████████████████████████████████████████████████| 34200/34200 [00:13<00:00, 2482.13it/s]
100%|██████████████████████████████████████████████████████████████████████████| 45080/45080 [00:23<00:00, 1885.44it/s]
100%|████████████████████████████████████████████████████████████████████████████| 8600/8600 [00:07<00:00, 1211.95it/s]


513.8296711444855


100%|██████████████████████████████████████████████████████████████████████████| 50200/50200 [00:26<00:00, 1895.33it/s]
100%|██████████████████████████████████████████████████████████████████████████| 90520/90520 [00:48<00:00, 1873.48it/s]


475.0085959434509
