<a href="https://colab.research.google.com/github/KarinaKatke/HiRiD/blob/main/getting_started.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [17]:
import glob
import math
import numpy as np
import os
import pandas as pd
import re
import shutil
import sys
import scipy
from sklearn.preprocessing import MinMaxScaler
import seaborn as sns
import matplotlib.pyplot as plt


In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
data_path = '/content/drive/My Drive/HiRID/raw_stage'

In [5]:
# Extract Raw Data
import tarfile

file_path = '/content/drive/My Drive/HiRID/raw_stage/observation_tables_parquet.tar.gz'
extract_path = '/content/observation_tables'

with tarfile.open(file_path, 'r:gz') as tar:
    tar.extractall(path=extract_path)

In [6]:
extracted_files = os.listdir(extract_path)
print(extracted_files)

['observation_tables']


In [7]:
observation_table_path = os.path.join(extract_path, 'observation_tables')

In [8]:
# Listing of all parquet files
all_parquet_files = []
for root, dirs, files in os.walk(observation_table_path):
    for file in files:
        if file.endswith('.parquet'):
            all_parquet_files.append(os.path.join(root, file))

print(all_parquet_files)

['/content/observation_tables/observation_tables/parquet/part-1.parquet', '/content/observation_tables/observation_tables/parquet/part-222.parquet', '/content/observation_tables/observation_tables/parquet/part-144.parquet', '/content/observation_tables/observation_tables/parquet/part-236.parquet', '/content/observation_tables/observation_tables/parquet/part-84.parquet', '/content/observation_tables/observation_tables/parquet/part-201.parquet', '/content/observation_tables/observation_tables/parquet/part-219.parquet', '/content/observation_tables/observation_tables/parquet/part-123.parquet', '/content/observation_tables/observation_tables/parquet/part-80.parquet', '/content/observation_tables/observation_tables/parquet/part-129.parquet', '/content/observation_tables/observation_tables/parquet/part-197.parquet', '/content/observation_tables/observation_tables/parquet/part-34.parquet', '/content/observation_tables/observation_tables/parquet/part-183.parquet', '/content/observation_tables/

In [9]:
#for parquet_file in all_parquet_files:
 #   df = pd.read_parquet(parquet_file)
  #  print(f"Reading file: {parquet_file}")
   # print(df.columns)

## Reading using Pandas
Required python packages are `pandas` and `pyarrow`

### Reading a part

In [10]:
part = 4

In [11]:
# Pandas-Optionen setzen für bessere Anzeige
pd.set_option("display.max_columns", None)        # alle Spalten anzeigen
pd.set_option("display.expand_frame_repr", False) # keine Umbrüche


In [12]:
file_path = os.path.join(
    'observation_tables', 'observation_tables', 'parquet', f'part-{part}.parquet'
)

In [13]:
# Anzeigen der Spaltennmane des parquet-files

df_part = pd.read_parquet(file_path)
print(f"Datei geladen: {file_path}")
print(df_part.columns)


Datei geladen: observation_tables/observation_tables/parquet/part-4.parquet
Index(['datetime', 'entertime', 'patientid', 'status', 'stringvalue', 'type',
       'value', 'variableid'],
      dtype='object')


In [14]:
df_part['value'].count() #zählt wie viele Werte in der Spalte 'value' nicht leer sind, also wie viele Werte existieren

np.int64(2412421)

In [15]:
# die ersten 10 Zeilen anzeigen lassen des parquet files

print(df_part.head(10))

                 datetime               entertime  patientid  status stringvalue type  value  variableid
0 2111-04-07 17:50:00.000 2111-04-07 18:02:16.320         65       8        None        90.0    10000400
1 2111-04-07 17:50:00.000 2111-04-07 18:02:16.333         65       8        None       175.0    10000450
2 2111-04-07 18:00:00.000 2111-04-07 19:46:35.530         65       8                     0.0    30005010
3 2111-04-07 18:00:00.000 2111-04-07 19:46:36.140         65       8                     0.0    30005075
4 2111-04-07 18:02:54.220 2111-04-07 18:02:58.723         65       4                   126.0         200
5 2111-04-07 18:02:55.070 2111-04-07 18:02:58.803         65       4                    88.0        4000
6 2111-04-07 18:03:28.100 2111-04-07 18:03:40.316         65      16                    88.0        4000
7 2111-04-07 18:03:28.550 2111-04-07 18:03:40.363         65      16                   127.0         200
8 2111-04-07 18:04:34.850 2111-04-07 18:05:38.986      

In [19]:
df_part.info()
df_part.isnull().sum()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2412562 entries, 0 to 2412561
Data columns (total 8 columns):
 #   Column       Dtype         
---  ------       -----         
 0   datetime     datetime64[ns]
 1   entertime    datetime64[ns]
 2   patientid    int32         
 3   status       int16         
 4   stringvalue  object        
 5   type         object        
 6   value        float32       
 7   variableid   int32         
dtypes: datetime64[ns](2), float32(1), int16(1), int32(2), object(2)
memory usage: 105.8+ MB


Unnamed: 0,0
datetime,0
entertime,0
patientid,0
status,0
stringvalue,41801
type,0
value,141
variableid,0


In [21]:
df_part.describe()


Unnamed: 0,datetime,entertime,patientid,status,value,variableid
count,2412562,2412562,2412562.0,2412562.0,2412421.0,2412562.0
mean,2145-11-11 23:21:01.802760192,2145-11-11 23:28:47.229911040,17957.48,12.94052,155.268,3634512.0
min,2105-04-09 12:00:00,2105-04-09 12:31:17.630000,65.0,-120.0,-317.36,100.0
25%,2119-08-08 22:05:00,2119-08-08 22:25:08.620249088,9923.0,8.0,9.2,170.0
50%,2142-08-15 20:19:30.474999808,2142-08-15 20:20:05.246499840,16269.0,16.0,46.0,310.0
75%,2166-03-24 02:08:38.935000064,2166-03-24 02:09:32.723000320,26480.0,16.0,96.0,4000.0
max,2196-11-29 12:20:22.070000,2196-11-29 12:20:22.070000,33854.0,72.0,35320.0,30010010.0
std,,,9163.397,3.920121,565.4026,9595449.0


# Betrachtete Value


In [None]:
# Die gewünschte variableid setzen
variableid = 300


# Wie viele Einträge hat eine bestimmte Variable?

In [None]:
total_count = 0
variableid = 3845

In [None]:
# zählen wie viel data wir zu einer spezifischen value haben, in diesem parquet file

gefilterte_values = df_part[df_part['variableid'] == variableid]['value']
total_count = gefilterte_values.notna().sum()

print(f"\nGesamtanzahl nicht-NaN-Werte für VariableID {variableid}: {total_count}")
print(gefilterte_values)


Gesamtanzahl nicht-NaN-Werte für VariableID 3845: 16068
11806      13.0
11902      13.0
12078      13.0
12213      13.0
12334      13.0
           ... 
2392581     1.0
2392585     1.0
2392589     1.0
2392593     1.0
2392597     1.0
Name: value, Length: 16068, dtype: float32


In [23]:
# Zähler initialisieren
gesamt_count = 0

# Durchlaufen aller Parquet-Dateien
for file_path in all_parquet_files:
    print(f"Lade Datei: {file_path}")
    df = pd.read_parquet(file_path)

    print(df.describe())

print(f"\fertighihi")

Lade Datei: /content/observation_tables/observation_tables/parquet/part-1.parquet
                            datetime                      entertime     patientid        status         value    variableid
count                        3682933                        3682933  3.682933e+06  3.682933e+06  3.682667e+06  3.682933e+06
mean   2144-09-03 23:44:27.078426624  2144-09-03 23:53:55.801220096  1.356207e+04  1.296983e+01  1.514988e+02  3.990931e+06
min              2108-05-09 19:35:00            2108-05-09 19:36:05  2.430000e+02 -1.200000e+02 -3.193600e+02  1.000000e+02
25%              2121-07-11 00:02:00  2121-07-11 00:09:00.250000384  3.908000e+03  8.000000e+00  8.000000e+00  2.000000e+02
50%    2139-01-28 11:52:46.709999616  2139-01-28 12:39:54.872999936  1.236300e+04  1.600000e+01  4.010000e+01  4.100000e+02
75%              2166-02-19 21:49:00  2166-02-19 21:51:39.836000256  2.299000e+04  1.600000e+01  9.400000e+01  4.000000e+03
max              2196-05-17 14:19:00     2196-05-1

KeyboardInterrupt: 

In [None]:
# durch alle Parquet Files gehen und zählen:

# Zähler initialisieren
gesamt_count = 0

# Durchlaufen aller Parquet-Dateien
for file_path in all_parquet_files:
    print(f"Lade Datei: {file_path}")
    df = pd.read_parquet(file_path)

    # Filtern nach der gewünschten variableid
    gefilterte_values = df[df['variableid'] == variableid]['value']

    # Zählen nicht-NaN-Werte in der Spalte "value"
    count = gefilterte_values.notna().sum()
    gesamt_count += count

    print(f"{count} Werte in Datei gefunden.")

print(f"\n Gesamtanzahl nicht-NaN-Werte für VariableID {variableid}: {gesamt_count}")

Lade Datei: /content/observation_tables/observation_tables/parquet/part-1.parquet
24313 Werte in Datei gefunden.
Lade Datei: /content/observation_tables/observation_tables/parquet/part-222.parquet
15504 Werte in Datei gefunden.
Lade Datei: /content/observation_tables/observation_tables/parquet/part-144.parquet
25512 Werte in Datei gefunden.
Lade Datei: /content/observation_tables/observation_tables/parquet/part-236.parquet
24017 Werte in Datei gefunden.
Lade Datei: /content/observation_tables/observation_tables/parquet/part-84.parquet
16467 Werte in Datei gefunden.
Lade Datei: /content/observation_tables/observation_tables/parquet/part-201.parquet
27031 Werte in Datei gefunden.
Lade Datei: /content/observation_tables/observation_tables/parquet/part-219.parquet
29674 Werte in Datei gefunden.
Lade Datei: /content/observation_tables/observation_tables/parquet/part-123.parquet
23439 Werte in Datei gefunden.
Lade Datei: /content/observation_tables/observation_tables/parquet/part-80.parquet


# Tabelle nur mit einer variableid

In [None]:
variableid = 200

In [None]:
# Filter anwenden
filtered_df = df_part[df_part["variableid"] == variableid]

# Nach Zeit sortieren, falls vorhanden
if "timestamp" in filtered_df.columns:
    filtered_df = filtered_df.sort_values("timestamp")

# Ausgabe
print(filtered_df.head(20))

                   datetime               entertime  patientid  status stringvalue type  value  variableid
4   2111-04-07 18:02:54.220 2111-04-07 18:02:58.723         65       4                   126.0         200
7   2111-04-07 18:03:28.550 2111-04-07 18:03:40.363         65      16                   127.0         200
9   2111-04-07 18:04:35.320 2111-04-07 18:05:39.033         65      16                   126.0         200
16  2111-04-07 18:06:49.040 2111-04-07 18:07:38.220         65      16                   127.0         200
21  2111-04-07 18:09:35.080 2111-04-07 18:09:37.250         65      16                   128.0         200
26  2111-04-07 18:10:09.280 2111-04-07 18:11:35.966         65      16                   124.0         200
28  2111-04-07 18:11:48.860 2111-04-07 18:13:34.730         65      16                   126.0         200
32  2111-04-07 18:15:07.850 2111-04-07 18:15:33.746         65      16                   123.0         200
33  2111-04-07 18:16:49.380 2111-04-0

# Preprocessing

# Label und Features

In [None]:
import pandas as pd
import pyarrow.parquet as pq
import os
from datetime import timedelta

# IDs für dein Projekt
VAR_IDS = {
    "TidalVolumeSetting": [2400],  # Label
    "PEEP": [2600, 2610],
    "FiO2": [2010],
    "PaCO2": [2001200],
    "pH": [20000300],
    "SaO2": [20000800],
    "RespRate": [300, 310, 5685],
    "VentMode": [3845],
    "Weight": [10000480]
}

# Zeitfenster (z. B. 60 Minuten vor Zielzeitpunkt)
window_minutes = 60

# Ergebnisse speichern
feature_rows = []

# Zähler für Debugging
processed_files_count = 0
total_patient_ids = 0
total_tv_labels = 0
rows_added_to_features = 0

# Durchlaufen aller Parquet-Dateien mit der bereits erstellten Liste all_parquet_files
# Diese Liste enthält die vollständigen Pfade zu allen .parquet-Dateien im Extraktionsverzeichnis und seinen Unterverzeichnissen.
print(f"Beginne Verarbeitung von {len(all_parquet_files)} Parquet-Dateien aus der Liste.")

for file_path in all_parquet_files: # Hier verwenden wir die existing all_parquet_files Liste
    # file_path enthält bereits den vollständigen Pfad, kein os.path.join mehr nötig
    full_file_path = file_path

    # Da all_parquet_files bereits nur .parquet-Dateien enthält, ist dieser Check nicht zwingend nötig,
    # aber es schadet nicht zur Sicherheit
    if not os.path.isfile(full_file_path) or not full_file_path.endswith(".parquet"):
        print(f"Ignoriere: {full_file_path} (Keine Parquet-Datei oder existiert nicht)")
        continue

    print(f"Verarbeite Datei: {full_file_path}")
    processed_files_count += 1

    try:
        # Lesen Sie die Parquet-Datei
        df = pd.read_parquet(full_file_path)
        print(f"  Datei erfolgreich geladen. Zeilen: {len(df)}")

        if df.empty:
            print(f"  Datei ist leer.")
            continue

        # Filtere relevante Variablen
        relevant_ids = [vid for ids in VAR_IDS.values() for vid in ids]
        df_relevant = df[df['variableid'].isin(relevant_ids)].copy()
        print(f"  Zeilen nach Filtern nach relevanten VariableIDs ({len(relevant_ids)} IDs): {len(df_relevant)}")

        if df_relevant.empty:
             print(f"  Keine relevanten VariableIDs in dieser Datei gefunden.")
             continue

        # Zeiteinheit
        try:
            df_relevant['timestamp'] = pd.to_datetime(df_relevant['timestamp'])
            print(f"  Zeitstempel erfolgreich in datetime konvertiert.")
        except Exception as e:
            print(f"  FEHLER bei Zeitstempel-Konvertierung in {full_file_path}: {e}")
            continue


        # Nach Patientengruppierung
        patient_groups = df_relevant.groupby('patientid')
        print(f"  Gefundene PatientIDs: {len(patient_groups)}")
        total_patient_ids += len(patient_groups)

        for patient_id, patient_df in patient_groups:
            patient_df = patient_df.sort_values('timestamp')

            # Label-Zeitpunkte (wann immer Tidal Volume Setting vorhanden ist)
            tv_df = patient_df[patient_df['variableid'].isin(VAR_IDS['TidalVolumeSetting'])]
            print(f"    Patient {patient_id}: Gefundene TidalVolumeSetting-Zeitpunkte: {len(tv_df)}")
            total_tv_labels += len(tv_df)

            for _, row in tv_df.iterrows():
                t_label = row['timestamp']
                y = row['value']  # Label-Wert

                # Alle Features im Zeitfenster [t_label - 60 min, t_label]
                t_start = t_label - timedelta(minutes=window_minutes)
                df_window = patient_df[(patient_df['timestamp'] >= t_start) & (patient_df['timestamp'] <= t_label)].copy() # .copy() um SettingWithCopyWarning zu vermeiden
                #print(f"      Label-Zeitpunkt {t_label}: Zeilen im Fenster [{t_start}, {t_label}]: {len(df_window)}")

                features = {'patientid': patient_id, 'label_time': t_label, 'TidalVolumeSetting': y}

                # Zähler für Features im Fenster
                features_found_in_window = 0

                for feat_name, ids in VAR_IDS.items():
                    if feat_name == "TidalVolumeSetting":
                        continue
                    feat_values = df_window[df_window['variableid'].isin(ids)]
                    if not feat_values.empty:
                        # Nehme den letzten bekannten Wert
                        features[feat_name] = feat_values.sort_values('timestamp').iloc[-1]['value']
                        features_found_in_window += 1
                    else:
                        features[feat_name] = None  # NaN

                # Nur hinzufügen, wenn mindestens ein Feature im Fenster gefunden wurde (optional, je nach Anforderung)
                # if features_found_in_window > 0:
                feature_rows.append(features)
                rows_added_to_features += 1
                # else:
                #     print(f"      Label-Zeitpunkt {t_label}: Keine Features im Zeitfenster gefunden.")


    except Exception as e:
        print(f"  FEHLER bei Verarbeitung von Datei {full_file_path}: {e}")


print("\n--- Verarbeitung abgeschlossen ---")
print(f"Insgesamt verarbeitete Parquet-Dateien: {processed_files_count}")
print(f"Insgesamt gefundene eindeutige PatientIDs (in relevanten Daten): {total_patient_ids}")
print(f"Insgesamt gefundene TidalVolumeSetting-Zeitpunkte: {total_tv_labels}")
print(f"Insgesamt hinzugefügte Zeilen zum Feature-DataFrame: {rows_added_to_features}")

# In DataFrame umwandeln
df_features = pd.DataFrame(feature_rows)

# Zeige Beispiel
print("\nBeispiel-Features:")
print(df_features.head())

print(f"\nEndgültige Größe des Feature-DataFrames: {len(df_features)}")

Beginne Verarbeitung von 250 Parquet-Dateien aus der Liste.
Verarbeite Datei: /content/observation_tables/observation_tables/parquet/part-1.parquet
  Datei erfolgreich geladen. Zeilen: 3682933
  Zeilen nach Filtern nach relevanten VariableIDs (12 IDs): 575667
  FEHLER bei Zeitstempel-Konvertierung in /content/observation_tables/observation_tables/parquet/part-1.parquet: 'timestamp'
Verarbeite Datei: /content/observation_tables/observation_tables/parquet/part-222.parquet
  Datei erfolgreich geladen. Zeilen: 2149096
  Zeilen nach Filtern nach relevanten VariableIDs (12 IDs): 461533
  FEHLER bei Zeitstempel-Konvertierung in /content/observation_tables/observation_tables/parquet/part-222.parquet: 'timestamp'
Verarbeite Datei: /content/observation_tables/observation_tables/parquet/part-144.parquet
  Datei erfolgreich geladen. Zeilen: 2468012
  Zeilen nach Filtern nach relevanten VariableIDs (12 IDs): 459952
  FEHLER bei Zeitstempel-Konvertierung in /content/observation_tables/observation_ta