In [1]:
import os
import pandas as pd
import numpy as np
from collections import defaultdict

First, it is necessary to standardize the data in the HYPERAKTIVE dataset and then separate the data into two folders: condition (for patients with ADHD) and control (for healthy individuals). The goal is to adjust the data from this dataset to a universally accepted format compatible with the code written for handling it.

In [2]:
def create_condition_and_control(folder_path):
    # Load patient data
    patients_info_df = pd.read_csv('./data/hyperaktiv/patient_info.csv', sep = ';')
    patients_info_df = patients_info_df[['ID', 'ADHD']]
    condition_id = 1
    control_id = 1
    
    # Iterate through files in the folder
    for filename in os.listdir(folder_path):
        if filename.endswith('.csv'):
            patient_id = filename.split('_')[2].split('.')[0]  # Extract patient ID
            patient_overall_info_df = patients_info_df.loc[patients_info_df['ID'] == int(patient_id)]
            
            # Check if the patient has ADHD
            if not patient_overall_info_df.empty:
                diagnosed_adhd = int(patient_overall_info_df['ADHD'].iloc[0])  # Get the ADHD status
                
                file_path = os.path.join(folder_path, filename)
                patient_info_df = pd.read_csv(file_path, sep = ';')
                patient_info_df = patient_info_df.rename(columns = {'TIMESTAMP': 'timestamp', 'ACTIVITY': 'activity'})
                patient_info_df['timestamp'] = pd.to_datetime(patient_info_df['timestamp'])
                patient_info_df['date'] = patient_info_df['timestamp'].dt.date
                patient_info_df = patient_info_df[['timestamp', 'date', 'activity']]
                
                # Save the file to the appropriate folder
                if diagnosed_adhd == 1:  # Patient has ADHD
                    new_file_path = os.path.join('./data/hyperaktiv/condition/', f'condition_{condition_id}.csv')
                    patient_info_df.to_csv(new_file_path, index = False, sep = ',')
                    condition_id += 1
                elif diagnosed_adhd == 0:  # Patient does not have ADHD
                    new_file_path = os.path.join('./data/hyperaktiv/control/', f'control_{control_id}.csv')
                    patient_info_df.to_csv(new_file_path, index = False, sep = ',')
                    control_id += 1
                
                print(f'Saved: {new_file_path}')
            else:
                print(f'No data found for patient {patient_id}. Skipping...')

This code can be run once. It has already be run.

In [4]:
folder_path = './data/hyperaktiv/activity_data'

create_condition_and_control(folder_path)

Saved: ./data/hyperaktiv/condition/condition_1.csv
Saved: ./data/hyperaktiv/condition/condition_2.csv
Saved: ./data/hyperaktiv/condition/condition_3.csv
Saved: ./data/hyperaktiv/condition/condition_4.csv
Saved: ./data/hyperaktiv/control/control_1.csv
Saved: ./data/hyperaktiv/condition/condition_5.csv
Saved: ./data/hyperaktiv/control/control_2.csv
Saved: ./data/hyperaktiv/control/control_3.csv
Saved: ./data/hyperaktiv/control/control_4.csv
Saved: ./data/hyperaktiv/control/control_5.csv
Saved: ./data/hyperaktiv/control/control_6.csv
Saved: ./data/hyperaktiv/condition/condition_6.csv
Saved: ./data/hyperaktiv/condition/condition_7.csv
Saved: ./data/hyperaktiv/condition/condition_8.csv
Saved: ./data/hyperaktiv/condition/condition_9.csv
Saved: ./data/hyperaktiv/control/control_7.csv
Saved: ./data/hyperaktiv/control/control_8.csv
Saved: ./data/hyperaktiv/condition/condition_10.csv
Saved: ./data/hyperaktiv/condition/condition_11.csv
Saved: ./data/hyperaktiv/condition/condition_12.csv
Saved: ./

# Full 24h

There is only need to change data into 24h time intervals. Day and night are calculated by provided code in manual files.

In [93]:
base_dir = 'data/hyperaktiv'
output_dir = 'data_24h/hyperaktiv'
excluded_file_names = ['patient_info']
excluded_folder_names = ['activity_data']
os.makedirs(output_dir, exist_ok = True)

def split_time_series(file_path, segment_duration = 24):
    """
    Splits a time series CSV file into 24-hour segments.
    
    Parameters:
    - file_path: str, path to the CSV file
    - segment_duration: int, duration of each segment (in hours)
    
    Returns:
    - List of DataFrames, each representing a segment
    """
    df = pd.read_csv(file_path)
    if 'timestamp' not in df.columns:
        raise ValueError("The CSV file must have a 'timestamp' column.")
    
    # Ensure timestamp is in datetime format and sorted
    df['timestamp'] = pd.to_datetime(df['timestamp'])
    df = df.sort_values('timestamp')
    
    # Calculate 24-hour chunks (assuming the data is hourly sampled)
    start_time = df['timestamp'].min()
    end_time = df['timestamp'].max()
    total_hours = int((end_time - start_time).total_seconds() // 3600)
    
    segments = []
    for i in range(0, total_hours, segment_duration):
        segment = df[
            (df['timestamp'] >= start_time + pd.Timedelta(hours=i)) &
            (df['timestamp'] < start_time + pd.Timedelta(hours=i + segment_duration))
        ]
        if not segment.empty:
            segments.append(segment)
    
    return segments

# Process all class folders
for class_folder in os.listdir(base_dir):
    if class_folder not in excluded_folder_names:
        class_path = os.path.join(base_dir, class_folder)
        if not os.path.isdir(class_path):
            continue  # Skip non-folder entries
    
        print(f"Processing class: {class_folder}")
        output_class_dir = os.path.join(output_dir, class_folder)
        os.makedirs(output_class_dir, exist_ok=True)
    
        for file_name in os.listdir(class_path):
            if file_name.endswith('.csv') and file_name not in excluded_file_names:
                file_path = os.path.join(class_path, file_name)
                segments = split_time_series(file_path)
            
                # Save each segment as a new CSV file
                for idx, segment in enumerate(segments):
                    segment_file = os.path.join(output_class_dir, f"{file_name[:-4]}_segment_{idx}.csv")
                    segment.to_csv(segment_file, index=False)
                    print(f"Saved: {segment_file}")

Processing class: condition
Saved: data_24h/hyperaktiv\condition\condition_1_segment_0.csv
Saved: data_24h/hyperaktiv\condition\condition_1_segment_1.csv
Saved: data_24h/hyperaktiv\condition\condition_1_segment_2.csv
Saved: data_24h/hyperaktiv\condition\condition_1_segment_3.csv
Saved: data_24h/hyperaktiv\condition\condition_1_segment_4.csv
Saved: data_24h/hyperaktiv\condition\condition_1_segment_5.csv
Saved: data_24h/hyperaktiv\condition\condition_10_segment_0.csv
Saved: data_24h/hyperaktiv\condition\condition_10_segment_1.csv
Saved: data_24h/hyperaktiv\condition\condition_10_segment_2.csv
Saved: data_24h/hyperaktiv\condition\condition_10_segment_3.csv
Saved: data_24h/hyperaktiv\condition\condition_10_segment_4.csv
Saved: data_24h/hyperaktiv\condition\condition_10_segment_5.csv
Saved: data_24h/hyperaktiv\condition\condition_10_segment_6.csv
Saved: data_24h/hyperaktiv\condition\condition_10_segment_7.csv
Saved: data_24h/hyperaktiv\condition\condition_11_segment_0.csv
Saved: data_24h/hy

In [97]:
def count_rows_in_csv_files(folder_path):
    # Tworzymy defaultdict, aby automatycznie tworzył listy dla każdej liczby wierszy
    row_counts_dict = defaultdict(int)
    
    # Iterujemy przez pliki w folderze
    for filename in os.listdir(folder_path):
        # Sprawdzamy, czy plik ma rozszerzenie .csv
        if filename.endswith('.csv') and file_name not in excluded_file_names:
            file_path = os.path.join(folder_path, filename)
            
            # Wczytujemy plik CSV
            try:
                df = pd.read_csv(file_path)
                row_count = len(df)
                # Zwiększamy licznik dla tej liczby wierszy
                row_counts_dict[row_count] += 1
            except Exception as e:
                # Obsługuje ewentualne błędy podczas otwierania pliku
                print(f"Error reading {filename}: {e}")
    
    return row_counts_dict

# Ścieżka do folderu z plikami CSV
folder_path = './data_24h/hyperaktiv/control' # tu wpisuje sie depresjo, psykose lub hyperaktiv a potem condition a nastepnie control 


# Wywołanie funkcji i wyświetlenie wyników
row_counts_grouped = count_rows_in_csv_files(folder_path)

# Wypisanie wyników w wymaganej formie
for row_count, file_count in row_counts_grouped.items():
    print(f"Długość {row_count}: {file_count} plików")

Długość 1440: 271 plików
Długość 551: 1 plików
Długość 131: 1 plików
Długość 736: 1 plików
Długość 93: 1 plików
Długość 862: 1 plików
Długość 475: 1 plików
Długość 202: 1 plików
Długość 354: 1 plików
Długość 1342: 1 plików
Długość 265: 1 plików
Długość 1395: 1 plików
Długość 1347: 1 plików
Długość 950: 1 plików
Długość 971: 1 plików
Długość 499: 1 plików
Długość 1067: 1 plików
Długość 123: 1 plików
Długość 717: 1 plików
Długość 725: 1 plików
Długość 1396: 1 plików
Długość 98: 1 plików
Długość 1394: 1 plików
Długość 105: 1 plików
Długość 581: 1 plików
Długość 1136: 1 plików
Długość 674: 1 plików
Długość 897: 1 plików
Długość 1099: 1 plików
Długość 1338: 1 plików
Długość 503: 1 plików
Długość 805: 1 plików
Długość 485: 1 plików
Długość 622: 1 plików
Długość 1359: 1 plików
Długość 156: 1 plików
Długość 1150: 1 plików


In [98]:
len(row_counts_grouped)

37

In [99]:
# Ścieżka do folderu zawierającego pliki CSV
folder_path = './data_24h/hyperaktiv/control'  

# Iterujemy przez wszystkie pliki w folderze
for file_name in os.listdir(folder_path):
    # Sprawdzamy, czy plik ma rozszerzenie .csv
    if file_name.endswith('.csv') and file_name not in excluded_file_names:
        file_path = os.path.join(folder_path, file_name)
        
        try:
            # Wczytujemy plik CSV do pandas DataFrame
            df = pd.read_csv(file_path)
            
            # Sprawdzamy liczbę wierszy w pliku
            if len(df) != 1440: # ustawienie wartosci poniżej ktorej usuwa sie bledne pliki
                print(f"Usuwam plik: {file_name} (zawiera {len(df)} linijek)")
                os.remove(file_path)  # Usuwamy plik
        except Exception as e:
            print(f"Błąd przy przetwarzaniu pliku {file_name}: {e}")

Usuwam plik: control_10_segment_7.csv (zawiera 551 linijek)
Usuwam plik: control_11_segment_6.csv (zawiera 131 linijek)
Usuwam plik: control_12_segment_8.csv (zawiera 736 linijek)
Usuwam plik: control_13_segment_7.csv (zawiera 93 linijek)
Usuwam plik: control_14_segment_9.csv (zawiera 862 linijek)
Usuwam plik: control_15_segment_7.csv (zawiera 475 linijek)
Usuwam plik: control_16_segment_7.csv (zawiera 202 linijek)
Usuwam plik: control_17_segment_7.csv (zawiera 354 linijek)
Usuwam plik: control_18_segment_6.csv (zawiera 1342 linijek)
Usuwam plik: control_19_segment_7.csv (zawiera 265 linijek)
Usuwam plik: control_1_segment_7.csv (zawiera 1395 linijek)
Usuwam plik: control_20_segment_6.csv (zawiera 1347 linijek)
Usuwam plik: control_21_segment_6.csv (zawiera 950 linijek)
Usuwam plik: control_22_segment_6.csv (zawiera 971 linijek)
Usuwam plik: control_23_segment_7.csv (zawiera 499 linijek)
Usuwam plik: control_24_segment_6.csv (zawiera 1067 linijek)
Usuwam plik: control_26_segment_7.csv 