In [11]:
import os
import pandas as pd
import numpy as np

# Directory paths
base_dir = 'data/psykose'  # Folder containing class folders
output_dir = 'data_24h/psykose'  # Folder to store the processed data
os.makedirs(output_dir, exist_ok=True)

# Define function to split time series into 24-hour chunks
def split_time_series(file_path, segment_duration=24):
    """
    Splits a time series CSV file into 24-hour segments.
    
    Parameters:
    - file_path: str, path to the CSV file
    - segment_duration: int, duration of each segment (in hours)
    
    Returns:
    - List of DataFrames, each representing a segment
    """
    df = pd.read_csv(file_path)
    if 'timestamp' not in df.columns:
        raise ValueError("The CSV file must have a 'timestamp' column.")
    
    # Ensure timestamp is in datetime format and sorted
    df['timestamp'] = pd.to_datetime(df['timestamp'])
    df = df.sort_values('timestamp')
    
    # Calculate 24-hour chunks (assuming the data is hourly sampled)
    start_time = df['timestamp'].min()
    end_time = df['timestamp'].max()
    total_hours = int((end_time - start_time).total_seconds() // 3600)
    
    segments = []
    for i in range(0, total_hours, segment_duration):
        segment = df[
            (df['timestamp'] >= start_time + pd.Timedelta(hours=i)) &
            (df['timestamp'] < start_time + pd.Timedelta(hours=i + segment_duration))
        ]
        if not segment.empty:
            segments.append(segment)
    
    return segments

# Process all class folders
for class_folder in os.listdir(base_dir):
    class_path = os.path.join(base_dir, class_folder)
    if not os.path.isdir(class_path):
        continue  # Skip non-folder entries
    
    print(f"Processing class: {class_folder}")
    output_class_dir = os.path.join(output_dir, class_folder)
    os.makedirs(output_class_dir, exist_ok=True)
    
    for file_name in os.listdir(class_path):
        if file_name.endswith('.csv'):
            file_path = os.path.join(class_path, file_name)
            segments = split_time_series(file_path)
            
            # Save each segment as a new CSV file
            for idx, segment in enumerate(segments):
                segment_file = os.path.join(output_class_dir, f"{file_name[:-4]}_segment_{idx}.csv")
                segment.to_csv(segment_file, index=False)
                print(f"Saved: {segment_file}")


Processing class: condition
Saved: data_24h/psykose/condition/patient_18_segment_0.csv
Saved: data_24h/psykose/condition/patient_18_segment_1.csv
Saved: data_24h/psykose/condition/patient_18_segment_2.csv
Saved: data_24h/psykose/condition/patient_18_segment_3.csv
Saved: data_24h/psykose/condition/patient_18_segment_4.csv
Saved: data_24h/psykose/condition/patient_18_segment_5.csv
Saved: data_24h/psykose/condition/patient_18_segment_6.csv
Saved: data_24h/psykose/condition/patient_18_segment_7.csv
Saved: data_24h/psykose/condition/patient_18_segment_8.csv
Saved: data_24h/psykose/condition/patient_18_segment_9.csv
Saved: data_24h/psykose/condition/patient_18_segment_10.csv
Saved: data_24h/psykose/condition/patient_18_segment_11.csv
Saved: data_24h/psykose/condition/patient_18_segment_12.csv
Saved: data_24h/psykose/condition/patient_18_segment_13.csv
Saved: data_24h/psykose/condition/patient_18_segment_14.csv
Saved: data_24h/psykose/condition/patient_18_segment_15.csv
Saved: data_24h/psykos

In [13]:
import os
import pandas as pd
from collections import defaultdict

def count_rows_in_csv_files(folder_path):
    # Tworzymy defaultdict, aby automatycznie tworzył listy dla każdej liczby wierszy
    row_counts_dict = defaultdict(int)
    
    # Iterujemy przez pliki w folderze
    for filename in os.listdir(folder_path):
        # Sprawdzamy, czy plik ma rozszerzenie .csv
        if filename.endswith('.csv'):
            file_path = os.path.join(folder_path, filename)
            
            # Wczytujemy plik CSV
            try:
                df = pd.read_csv(file_path)
                row_count = len(df)
                # Zwiększamy licznik dla tej liczby wierszy
                row_counts_dict[row_count] += 1
            except Exception as e:
                # Obsługuje ewentualne błędy podczas otwierania pliku
                print(f"Error reading {filename}: {e}")
    
    return row_counts_dict

# Ścieżka do folderu z plikami CSV
folder_path = './data_24h/psykose/condition'


# Wywołanie funkcji i wyświetlenie wyników
row_counts_grouped = count_rows_in_csv_files(folder_path)

# Wypisanie wyników w wymaganej formie
for row_count, file_count in row_counts_grouped.items():
    print(f"Długość {row_count}: {file_count} plików")


Długość 1440: 362 plików
Długość 285: 1 plików
Długość 243: 1 plików
Długość 107: 1 plików
Długość 326: 1 plików
Długość 98: 1 plików
Długość 344: 1 plików
Długość 338: 1 plików
Długość 331: 1 plików
Długość 346: 1 plików
Długość 1500: 6 plików
Długość 219: 1 plików
Długość 210: 1 plików
Długość 220: 1 plików
Długość 214: 1 plików
Długość 217: 1 plików
Długość 248: 1 plików
Długość 140: 1 plików
Długość 207: 1 plików
Długość 138: 1 plików
Długość 208: 1 plików
Długość 147: 1 plików
Długość 146: 1 plików


In [7]:
len(row_counts_grouped)

21

In [15]:
import os
import pandas as pd

# Ścieżka do folderu zawierającego pliki CSV
folder_path = './data_24h/psykose/condition'

# Iterujemy przez wszystkie pliki w folderze
for file_name in os.listdir(folder_path):
    # Sprawdzamy, czy plik ma rozszerzenie .csv
    if file_name.endswith('.csv'):
        file_path = os.path.join(folder_path, file_name)
        
        try:
            # Wczytujemy plik CSV do pandas DataFrame
            df = pd.read_csv(file_path)
            
            # Sprawdzamy liczbę wierszy w pliku
            if len(df) < 1400:
                print(f"Usuwam plik: {file_name} (zawiera {len(df)} linijek)")
                os.remove(file_path)  # Usuwamy plik
        except Exception as e:
            print(f"Błąd przy przetwarzaniu pliku {file_name}: {e}")


Usuwam plik: patient_6_segment_15.csv (zawiera 285 linijek)
Usuwam plik: patient_19_segment_19.csv (zawiera 243 linijek)
Usuwam plik: patient_18_segment_20.csv (zawiera 107 linijek)
Usuwam plik: patient_1_segment_15.csv (zawiera 326 linijek)
Usuwam plik: patient_22_segment_15.csv (zawiera 98 linijek)
Usuwam plik: patient_3_segment_15.csv (zawiera 344 linijek)
Usuwam plik: patient_4_segment_15.csv (zawiera 338 linijek)
Usuwam plik: patient_5_segment_15.csv (zawiera 331 linijek)
Usuwam plik: patient_2_segment_15.csv (zawiera 346 linijek)
Usuwam plik: patient_15_segment_15.csv (zawiera 219 linijek)
Usuwam plik: patient_12_segment_15.csv (zawiera 210 linijek)
Usuwam plik: patient_21_segment_22.csv (zawiera 220 linijek)
Usuwam plik: patient_13_segment_15.csv (zawiera 214 linijek)
Usuwam plik: patient_14_segment_15.csv (zawiera 217 linijek)
Usuwam plik: patient_20_segment_19.csv (zawiera 248 linijek)
Usuwam plik: patient_8_segment_20.csv (zawiera 140 linijek)
Usuwam plik: patient_11_segment_