In [1]:
#%%-------------------------------------------------------------------------------------------
import os
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from scipy.signal import butter, filtfilt, iirnotch
import glob
import scipy.stats as stats
import seaborn as sns

import functions_IMU
import functions_generell
import functions_PRESSURE

In [2]:
#%% Daten einlesen f√ºr alle Teilnehmer-------------------------------------------------------------------------------------------
# liste der Teilneher
participants = ['ID_1_Dabisch_Samuel', 'ID_2_Pohl_Jannis', 'ID_3_Kleber_Christian',
                'ID_4_Schr√∂ter_Till', 'ID_5_Zaschke_Lenard', 'ID_6_Petroll_Finn', 'ID_7_Gruber_Julius']
# bedingunegn der Messungen
measurements = ['REAL_1', 'REAL_2', 'VR_1', 'VR_2']

# Alle Daten der Teilnehmer einlesen und verarbeiten
all_data = {}

for participant in participants:
    folder_path = os.path.join('data_final', participant)
    
    # Lade die 6 CSV-Dateien f√ºr den Teilnehmer
    real_1, real_2, vr_1, vr_2, mvc_beine, mvc_hals = functions_generell.load_csvs(folder_path)
    
    # Speichere die DataFrames im Dictionary
    all_data[participant] = {
        'REAL_1': real_1,
        'REAL_2': real_2,
        'VR_1': vr_1,
        'VR_2': vr_2,
        'MVC_Beine': mvc_beine,
        'MVC_Hals': mvc_hals
    }
    
    print(f"Daten f√ºr {participant} geladen")

print(f"\nAlle Daten geladen! {len(all_data)} Teilnehmer erfolgreich eingelesen.")

Daten f√ºr ID_1_Dabisch_Samuel geladen
Daten f√ºr ID_2_Pohl_Jannis geladen
Daten f√ºr ID_3_Kleber_Christian geladen
Daten f√ºr ID_4_Schr√∂ter_Till geladen
Daten f√ºr ID_5_Zaschke_Lenard geladen
Daten f√ºr ID_6_Petroll_Finn geladen
Daten f√ºr ID_7_Gruber_Julius geladen

Alle Daten geladen! 7 Teilnehmer erfolgreich eingelesen.


## Hier werden die Jump parameter (dauer, H√∂he) anhand der Kraft daten bestimmt

In [3]:
### parameter aus Kraftdaten extrahieren
def identify_jumps(df, flight_threshold=50, min_flight_sec=0.2):
    """
    Identifiziert Spr√ºnge √ºber einen Kraft-Schwellenwert und berechnet die Sprungh√∂he.
    
    Parameters:
    -----------
    flight_threshold : float
        Kraftwert (N), unter dem eine Flugphase erkannt wird (Default: 50N).
    min_flight_sec : float
        Mindestdauer in der Luft, um als Sprung zu gelten.
    """
    total_force = (df['LT Force (N)'] + df['RT Force (N)']).values
    time = df['time'].values
    g = 9.81 # Erdbeschleunigung
    
    # 1. Flugphasen-Maske
    in_air = total_force < flight_threshold
    
    # 2. Detektion von Statuswechseln
    diff = np.diff(in_air.astype(int))
    takeoff_indices = np.where(diff == 1)[0]
    landing_indices = np.where(diff == -1)[0]
    
    # Korrektur der Indizes (Start mit Take-off, Ende mit Landung)
    if len(takeoff_indices) > 0 and len(landing_indices) > 0:
        if landing_indices[0] < takeoff_indices[0]:
            landing_indices = landing_indices[1:]
        takeoff_indices = takeoff_indices[:len(landing_indices)]

    jumps_list = []
    
    # 3. Flugdaten extrahieren und H√∂he berechnen
    for i in range(len(takeoff_indices)):
        idx_off = takeoff_indices[i]
        idx_on = landing_indices[i]
        
        t_off = time[idx_off]
        t_on = time[idx_on]
        flug_dauer = t_on - t_off
        
        # Filter f√ºr plausible Spr√ºnge
        if flug_dauer > min_flight_sec:
            # Berechnung der Sprungh√∂he in Metern
            # Formel: h = 1/8 * g * t^2
            sprunghoehe_m = (1/8) * g * (flug_dauer**2)
            sprunghoehe_cm = sprunghoehe_m * 100
            
            jump_dict = {
                'sprung nr.': len(jumps_list) + 1,
                't_absprung': round(t_off, 4),
                't_landung': round(t_on, 4),
                'flugzeit_s': round(flug_dauer, 4),
                'sprunghoehe_cm': round(sprunghoehe_cm, 2)
            }
            jumps_list.append(jump_dict)
            
    return jumps_list

def visualize_jumps(df, jumps_list, participant, measurement):
    # Kraft berechnen
    total_force = df['LT Force (N)'] + df['RT Force (N)']
    time = df['time'].values
    
    plt.figure(figsize=(15, 7))
    plt.plot(time, total_force, color='black', alpha=0.3, label='Rohdaten Kraft')
    
    # Hilfsvariablen f√ºr die Legende
    labeled_flight_zone = False
    labeled_events = False
    
    for j in jumps_list:
        # 1. Die Flugphase (t_absprung bis t_landung) markieren
        plt.axvspan(j['t_absprung'], j['t_landung'], 
                    color='orange', alpha=0.2, 
                    label='Flugphase' if not labeled_flight_zone else "")
        labeled_flight_zone = True
        
        # 2. Vertikale Linien f√ºr Take-off und Landing
        plt.axvline(j['t_absprung'], color='green', linestyle='--', alpha=0.6, 
                    label='Take-off' if not labeled_events else "")
        plt.axvline(j['t_landung'], color='red', linestyle='--', alpha=0.6, 
                    label='Landing' if not labeled_events else "")
        labeled_events = True
        
        # 3. Text-Position (Mitte der Flugphase)
        text_pos_x = j['t_absprung'] + (j['flugzeit_s'] / 2)
        
        # 4. Sprungnummer und Sprungh√∂he anzeigen
        # Wir platzieren den Text etwas √ºber der Kraftkurve
        y_pos = max(total_force) * 0.9
        plt.text(text_pos_x, y_pos, f"Sprung {j['sprung nr.']}\n{j['sprunghoehe_cm']} cm", 
                 horizontalalignment='center', fontweight='bold', fontsize=10,
                 bbox=dict(facecolor='white', alpha=0.8, edgecolor='orange', boxstyle='round,pad=0.5'))
        
        # 5. Flugzeit darunter anzeigen
        plt.text(text_pos_x, y_pos * 0.82, f"t: {j['flugzeit_s']}s", 
                 horizontalalignment='center', fontsize=9, color='black', alpha=0.7)

    # Titel und Labels
    title_str = f"Sprungdetektion: {participant} - {measurement} | {len(jumps_list)} Spr√ºnge gefunden"
    plt.title(title_str, fontsize=14, pad=15)
    plt.xlabel("Zeit (s)")
    plt.ylabel("Gesamtkraft (N)")
    
    # Verzeichnis erstellen (falls nicht vorhanden)
    save_dir = 'Pictures_Test/Sprungzyklen_Kraft'
    os.makedirs(save_dir, exist_ok=True)
    
    plt.legend(loc='upper right')
    plt.grid(True, alpha=0.2)
    plt.tight_layout()
    
    # Speichern
    #file_name = f'{participant}_{measurement}_jump_analysis.png'
    #plt.savefig(os.path.join(save_dir, file_name), dpi=300)

    plt.show()


output_folder = 'jump_analysis_results_Pressure'

# Erstelle Ausgabeverzeichnis, falls nicht vorhanden
os.makedirs(output_folder, exist_ok=True)

for participant in participants:
    print(f"\nVerarbeite {participant}...")
    
    all_jumps_data = []
    
    # Durchlaufe alle 4 Messungen
    for measurement in measurements:
        df = all_data[participant][measurement]
        
        # Identifiziere Spr√ºnge in dieser Messung
        jumps = identify_jumps(df, flight_threshold=155, min_flight_sec=0.2)
        #visualize_jumps(df, jumps, participant, measurement)

        # F√ºge Measurement-Info zu jedem Sprung hinzu
        for jump in jumps:
            jump['messung'] = measurement
            all_jumps_data.append(jump)
        
        print(f"  {measurement}: {len(jumps)} Spr√ºnge gefunden")
    
    # Erstelle DataFrame aus allen Spr√ºngen
    jumps_df = pd.DataFrame(all_jumps_data)
    
    # Speichere als CSV
    output_file = os.path.join(output_folder, f'{participant}_jumps.csv')
    jumps_df.to_csv(output_file, index=False)
    
    print(f"  ‚úì Gesamt: {len(all_jumps_data)} Spr√ºnge")
    print(f"  ‚úì CSV gespeichert: {output_file}")

print(f"\n{'='*80}")
print(f"Verarbeitung abgeschlossen!")
print(f"Alle CSVs wurden im Ordner '{output_folder}' gespeichert.")
print(f"{'='*80}")


Verarbeite ID_1_Dabisch_Samuel...
  REAL_1: 6 Spr√ºnge gefunden
  REAL_2: 6 Spr√ºnge gefunden
  VR_1: 6 Spr√ºnge gefunden
  VR_2: 6 Spr√ºnge gefunden
  ‚úì Gesamt: 24 Spr√ºnge
  ‚úì CSV gespeichert: jump_analysis_results_Pressure\ID_1_Dabisch_Samuel_jumps.csv

Verarbeite ID_2_Pohl_Jannis...
  REAL_1: 6 Spr√ºnge gefunden
  REAL_2: 5 Spr√ºnge gefunden
  VR_1: 6 Spr√ºnge gefunden
  VR_2: 2 Spr√ºnge gefunden
  ‚úì Gesamt: 19 Spr√ºnge
  ‚úì CSV gespeichert: jump_analysis_results_Pressure\ID_2_Pohl_Jannis_jumps.csv

Verarbeite ID_3_Kleber_Christian...
  REAL_1: 6 Spr√ºnge gefunden
  REAL_2: 6 Spr√ºnge gefunden
  VR_1: 6 Spr√ºnge gefunden
  VR_2: 6 Spr√ºnge gefunden
  ‚úì Gesamt: 24 Spr√ºnge
  ‚úì CSV gespeichert: jump_analysis_results_Pressure\ID_3_Kleber_Christian_jumps.csv

Verarbeite ID_4_Schr√∂ter_Till...
  REAL_1: 6 Spr√ºnge gefunden
  REAL_2: 6 Spr√ºnge gefunden
  VR_1: 6 Spr√ºnge gefunden
  VR_2: 6 Spr√ºnge gefunden
  ‚úì Gesamt: 24 Spr√ºnge
  ‚úì CSV gespeichert: jump_analysis_resul

### spr√ºnge nach der H√∂he sortieren und filtern

In [4]:
import glob
import seaborn as sns

def plot_jump_height_kde_fixed_axes(folder_path, output_name):
    """
    Erstellt KDE-Verteilungskurven f√ºr REAL vs VR mit festen Achsen
    f√ºr eine perfekte Vergleichbarkeit zwischen allen Teilnehmern.
    """
    output_dir = 'Pictures_Test/Jump_Height_Distributions'
    os.makedirs(output_dir, exist_ok=True)
    
    # Suche alle CSV-Dateien im Ordner
    csv_files = glob.glob(os.path.join(folder_path, "*.csv"))
    
    # --- KONSTANTE ACHSENEINSTELLUNGEN ---
    # Diese Werte bleiben f√ºr JEDEN Plot gleich:
    X_MIN, X_MAX = 10, 40   # Bereich der Sprungh√∂he in cm
    Y_MIN, Y_MAX = 0, 0.3   # Dichte (Wie hoch die Kurve maximal geht)
    
    for file in csv_files:
        file_name = os.path.basename(file)
        participant_id = file_name.replace('_jumps.csv', '')
        
        # Daten laden
        df = pd.read_csv(file)
        df.columns = df.columns.str.strip() # Entfernt versteckte Leerzeichen
        
        # REAL und VR trennen
        real_heights = df[df['messung'].str.contains('REAL', na=False)]['sprunghoehe_cm'].dropna()
        vr_heights = df[df['messung'].str.contains('VR', na=False)]['sprunghoehe_cm'].dropna()
        
        # Plot initialisieren
        plt.figure(figsize=(10, 6))
        ax = plt.gca()
        
        # 1. KDE Kurve f√ºr REAL (Blau)
        if not real_heights.empty:
            sns.kdeplot(real_heights, fill=True, color="blue", 
                        label=f"REAL (n={len(real_heights)})", ax=ax, alpha=0.3, bw_adjust=1)
            # Gestrichelte Linie f√ºr den Mittelwert
            ax.axvline(real_heights.mean(), color='blue', linestyle='--', lw=1.5, alpha=0.7)
            
        # 2. KDE Kurve f√ºr VR (Rot)
        if not vr_heights.empty:
            sns.kdeplot(vr_heights, fill=True, color="red", 
                        label=f"VR (n={len(vr_heights)})", ax=ax, alpha=0.3, bw_adjust=1)
            # Gestrichelte Linie f√ºr den Mittelwert
            ax.axvline(vr_heights.mean(), color='red', linestyle='--', lw=1.5, alpha=0.7)
        
        # --- FIXIERUNG DER ACHSEN ---
        ax.set_xlim(X_MIN, X_MAX)
        ax.set_ylim(Y_MIN, Y_MAX)
        
        # Beschriftung und Design
        plt.title(f"Sprungh√∂hen Verteilung: {participant_id}\n(Fixe Achsen f√ºr Vergleichbarkeit)", fontsize=13)
        plt.xlabel("Sprungh√∂he (cm)", fontsize=12)
        plt.ylabel("Dichte (Wahrscheinlichkeit)", fontsize=12)
        plt.legend(loc='upper right')
        plt.grid(True, linestyle=':', alpha=0.5)
        
        # Speichern
        save_path = os.path.join(output_dir, f"{participant_id}_{output_name}.png")
        plt.savefig(save_path, dpi=300, bbox_inches='tight')
        plt.close()
        
    print(f"‚úÖ KDE-Plots mit Info (n & Mean) erstellt in: {output_dir}")

def plot_jump_height_stripplot_with_info(folder_path, output_name_suffix):
    """
    Erstellt Dot-Plots auf einem Strahl und zeigt die Anzahl der Spr√ºnge (n)
    sowie den Mittelwert direkt im Plot an.
    """
    output_dir = 'Pictures_Test/Jump_Height_Dots'
    os.makedirs(output_dir, exist_ok=True)
    
    csv_files = glob.glob(os.path.join(folder_path, "*.csv"))
    
    # Achsen fixieren
    X_MIN, X_MAX = 10, 45
    
    for file in csv_files:
        file_name = os.path.basename(file)
        participant_id = file_name.replace('_jumps.csv', '')
        
        df = pd.read_csv(file)
        df.columns = df.columns.str.strip()
        
        plt.figure(figsize=(12, 5))
        ax = plt.gca()
        
        for i, (condition, color) in enumerate([('REAL', 'blue'), ('VR', 'red')]):
            # Y-Position f√ºr REAL = 1, f√ºr VR = 0
            y_pos = 1 if condition == 'REAL' else 0
            
            data = df[df['messung'].str.contains(condition, na=False)]['sprunghoehe_cm'].dropna()
            n_count = len(data)
            
            if n_count > 0:
                mean_val = data.mean()
                
                # Den Strahl zeichnen
                plt.hlines(y_pos, X_MIN, X_MAX, colors='gray', linestyles='--', alpha=0.2)
                
                # Die einzelnen Spr√ºnge als Punkte
                plt.scatter(data, [y_pos]*n_count, color=color, s=120, alpha=0.5, 
                            edgecolors='white', label=f'{condition} (n={n_count})')
                
                # Mittelwert-Strich
                plt.vlines(mean_val, y_pos - 0.2, y_pos + 0.2, colors='black', lw=3)
                
                # INFO-TEXT: Anzahl und Mittelwert direkt an den Strich schreiben
                plt.text(mean_val, y_pos + 0.25, f'M = {mean_val:.1f} cm\n(n={n_count})', 
                         ha='center', va='bottom', fontsize=10, fontweight='bold', color=color)

        # Styling
        plt.ylim(-0.8, 1.8)
        plt.xlim(X_MIN, X_MAX)
        plt.yticks([0, 1], ['VR Bedingung', 'REAL Bedingung'], fontsize=12)
        plt.title(f"Einzelwerte & Mittelwerte: {participant_id}\nDatensatz: {output_name_suffix}", fontsize=14, pad=20)
        plt.xlabel("Sprungh√∂he (cm)", fontsize=12)
        plt.grid(axis='x', alpha=0.3, linestyle=':')
        
        # Speichern
        save_path = os.path.join(output_dir, f"{participant_id}_{output_name_suffix}_dots.png")
        plt.savefig(save_path, dpi=300, bbox_inches='tight')
        plt.close()

    print(f"‚úÖ Dot-Plots mit Info (n & Mean) erstellt in: {output_dir}")

# Aufruf der Funktion (Pfad anpassen)
plot_jump_height_kde_fixed_axes('jump_analysis_results_Pressure_angepasst_selber/', "Distributions_alle")
plot_jump_height_kde_fixed_axes('jump_analysis_results_SD_CLEANED/', "Distributions_outliers_removed")

plot_jump_height_stripplot_with_info('jump_analysis_results_Pressure_angepasst_selber/', "Dotplot_alle")
plot_jump_height_stripplot_with_info('jump_analysis_results_SD_CLEANED/', "Dotplot_outliers_removed")



‚úÖ KDE-Plots mit Info (n & Mean) erstellt in: Pictures_Test/Jump_Height_Distributions
‚úÖ KDE-Plots mit Info (n & Mean) erstellt in: Pictures_Test/Jump_Height_Distributions
‚úÖ Dot-Plots mit Info (n & Mean) erstellt in: Pictures_Test/Jump_Height_Dots
‚úÖ Dot-Plots mit Info (n & Mean) erstellt in: Pictures_Test/Jump_Height_Dots


In [5]:
### normalverteilung checken
from scipy.stats import shapiro

def check_normality(folder_path):
    csv_files = glob.glob(os.path.join(folder_path, "*.csv"))
    print (csv_files)
    results = []

    
    for file, participant  in zip(csv_files, participants):
        participant_id = participant
        df = pd.read_csv(file)
        df.columns = df.columns.str.strip()


        for cond in ['REAL', 'VR']:
            data = df[df['messung'].str.contains(cond, na=False)]['sprunghoehe_cm'].dropna()
            
            if len(data) >= 3: # Shapiro braucht mind. 3 Werte
                stat, p_value = shapiro(data)
                is_normal = "Ja" if p_value > 0.05 else "Nein (p < 0.05)"
                
                results.append({
                    'Teilnehmer': participant_id,
                    'Bedingung': cond,
                    'p-Wert': round(p_value, 4),
                    'Normalverteilt?': is_normal
                })

    # Ergebnisse als Tabelle speichern
    results_df = pd.DataFrame(results)
    results_df.to_csv('Normalverteilung_Check.csv', index=False)
    print("‚úÖ Check abgeschlossen. Ergebnisse in 'Normalverteilung_Check.csv' gespeichert.")
    return results_df

# Ausf√ºhrung
normality_table = check_normality('jump_analysis_results_Pressure_angepasst_selber/')
print(normality_table)

['jump_analysis_results_Pressure_angepasst_selber\\ID_1_Dabisch_Samuel_jumps.csv', 'jump_analysis_results_Pressure_angepasst_selber\\ID_2_Pohl_Jannis_jumps.csv', 'jump_analysis_results_Pressure_angepasst_selber\\ID_3_Kleber_Christian_jumps.csv', 'jump_analysis_results_Pressure_angepasst_selber\\ID_4_Schr√∂ter_Till_jumps.csv', 'jump_analysis_results_Pressure_angepasst_selber\\ID_5_Zaschke_Lenard_jumps.csv', 'jump_analysis_results_Pressure_angepasst_selber\\ID_6_Petroll_Finn_jumps.csv', 'jump_analysis_results_Pressure_angepasst_selber\\ID_7_Gruber_Julius_jumps.csv']
‚úÖ Check abgeschlossen. Ergebnisse in 'Normalverteilung_Check.csv' gespeichert.
               Teilnehmer Bedingung  p-Wert  Normalverteilt?
0     ID_1_Dabisch_Samuel      REAL  0.6898               Ja
1     ID_1_Dabisch_Samuel        VR  0.3823               Ja
2        ID_2_Pohl_Jannis      REAL  0.5446               Ja
3        ID_2_Pohl_Jannis        VR  0.0617               Ja
4   ID_3_Kleber_Christian      REAL  0.4318

### outlier detektion

In [26]:
### outlier rausschmei√üen
def clean_jumps_with_iqr(input_folder, output_folder):
    """
    Liest Sprungdaten, entfernt Outlier pro Teilnehmer und Bedingung 
    mittels IQR und speichert die sauberen Daten.
    """
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)
        
    csv_files = glob.glob(os.path.join(input_folder, "*.csv"))
    
    summary_report = []

    for file_path in csv_files:
        file_name = os.path.basename(file_path)
        df = pd.read_csv(file_path)
        df.columns = df.columns.str.strip()
        
        cleaned_df_list = []
        removed_count_total = 0
        
        # WICHTIG: Outlier getrennt nach REAL und VR bestimmen
        # Sonst l√∂schen wir echte Unterschiede zwischen den Bedingungen!
        for condition in ['REAL', 'VR']:
            # Filtere Daten f√ºr die aktuelle Bedingung (z.B. alles was 'REAL' enth√§lt)
            cond_data = df[df['messung'].str.contains(condition, na=False)].copy()
            
            if len(cond_data) > 0:
                # IQR Berechnung
                Q1 = cond_data['sprunghoehe_cm'].quantile(0.25)
                Q3 = cond_data['sprunghoehe_cm'].quantile(0.75)
                IQR = Q3 - Q1
                
                lower_bound = Q1 - 1.5 * IQR
                upper_bound = Q3 + 1.5 * IQR
                
                # Nur Daten behalten, die innerhalb der Bounds liegen
                is_no_outlier = (cond_data['sprunghoehe_cm'] >= lower_bound) & \
                                (cond_data['sprunghoehe_cm'] <= upper_bound)
                
                cond_cleaned = cond_data[is_no_outlier]
                removed_in_cond = len(cond_data) - len(cond_cleaned)
                
                cleaned_df_list.append(cond_cleaned)
                removed_count_total += removed_in_cond
                
                if removed_in_cond > 0:
                    print(f"  - {file_name}: {removed_in_cond} Outlier in {condition} entfernt.")

        # Alle bereinigten Teile wieder zusammenf√ºgen
        if cleaned_df_list:
            final_df = pd.concat(cleaned_df_list).sort_values(by=['messung', 'sprung nr.'])
            final_df.to_csv(os.path.join(output_folder, file_name), index=False)
            summary_report.append({'Datei': file_name, 'Entfernt': removed_count_total})

    print(f"\n‚úÖ Bereinigung abgeschlossen. Daten gespeichert in: {output_folder}")
    return summary_report

def clean_jumps_with_iqr_narrow(input_folder, output_folder, iqr_factor=1.0):
    """
    Liest Sprungdaten und entfernt Outlier mit einem engeren IQR-Fenster.
    iqr_factor=1.5 ist Standard.
    iqr_factor=1.0 ist strenger.
    iqr_factor=0.8 ist sehr streng.
    """
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)
        
    csv_files = glob.glob(os.path.join(input_folder, "*.csv"))
    summary_report = []

    for file_path in csv_files:
        file_name = os.path.basename(file_path)
        df = pd.read_csv(file_path)
        df.columns = df.columns.str.strip()
        
        cleaned_df_list = []
        removed_count_total = 0
        
        for condition in ['REAL', 'VR']:
            cond_data = df[df['messung'].str.contains(condition, na=False)].copy()
            
            if len(cond_data) > 0:
                # Quartile berechnen
                Q1 = cond_data['sprunghoehe_cm'].quantile(0.25)
                Q3 = cond_data['sprunghoehe_cm'].quantile(0.75)
                IQR = Q3 - Q1
                
                # FENSTER VERKLEINERN: Hier nutzen wir den kleineren iqr_factor
                lower_bound = Q1 - iqr_factor * IQR
                upper_bound = Q3 + iqr_factor * IQR
                
                # Filter anwenden
                mask = (cond_data['sprunghoehe_cm'] >= lower_bound) & \
                       (cond_data['sprunghoehe_cm'] <= upper_bound)
                
                cond_cleaned = cond_data[mask]
                removed_in_cond = len(cond_data) - len(cond_cleaned)
                
                cleaned_df_list.append(cond_cleaned)
                removed_count_total += removed_in_cond
                
                if removed_in_cond > 0:
                    print(f"üö© {file_name}: {removed_in_cond} Outlier in {condition} entfernt.")
                    print(f"   Grenzen (IQR x {iqr_factor}): {lower_bound:.2f} - {upper_bound:.2f} cm")

        if cleaned_df_list:
            final_df = pd.concat(cleaned_df_list).sort_values(by=['messung', 'sprung nr.'])
            final_df.to_csv(os.path.join(output_folder, file_name), index=False)
            summary_report.append({'Datei': file_name, 'Entfernt': removed_count_total})

    print(f"\n‚úÖ Enge IQR-Bereinigung abgeschlossen. Ordner: {output_folder}")
    return summary_report

# # --- AUSF√úHRUNG MIT ENGEREM FENSTER ---
# # Wir probieren es mal mit 1.0 statt 1.5
# clean_jumps_with_iqr_narrow('jump_analysis_results_Pressure_angepasst/', 
#                            'jump_analysis_results_IQR_CLEANED/', 
#                            iqr_factor=0.8)

# # --- AUSF√úHRUNG ---
# input_path = 'jump_analysis_results_Pressure_angepasst/'
# output_path = 'jump_analysis_results_CLEANED/'

# report = clean_jumps_with_iqr(input_path, output_path)


def clean_jumps_with_sd(input_folder, output_folder, sd_factor=2):
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)
        
    csv_files = glob.glob(os.path.join(input_folder, "*.csv"))
    
    for file_path in csv_files:
        file_name = os.path.basename(file_path)
        df = pd.read_csv(file_path)
        df.columns = df.columns.str.strip()
        
        cleaned_chunks = []
        
        for condition in ['REAL', 'VR']:
            # Filter f√ºr die Bedingung
            cond_data = df[df['messung'].str.contains(condition, na=False)].copy()
            
            if len(cond_data) > 2: # SD ist bei n=2 nicht aussagekr√§ftig
                mean_h = cond_data['sprunghoehe_cm'].mean()
                std_h = cond_data['sprunghoehe_cm'].std()
                
                lower_limit = mean_h - (sd_factor * std_h)
                upper_limit = mean_h + (sd_factor * std_h)
                
                # Maske erstellen (Korrigiert: Variable konsistent benannt)
                mask = (cond_data['sprunghoehe_cm'] >= lower_limit) & \
                       (cond_data['sprunghoehe_cm'] <= upper_limit)
                
                cond_cleaned = cond_data[mask]
                removed = len(cond_data) - len(cond_cleaned)
                
                if removed > 0:
                    print(f"üö© {file_name} ({condition}): {removed} Outlier entfernt.")
                    print(f"   Grenzen: {lower_limit:.2f} - {upper_limit:.2f} cm (Mean: {mean_h:.2f})")
                
                cleaned_chunks.append(cond_cleaned)
            else:
                cleaned_chunks.append(cond_data)

        if cleaned_chunks:
            final_df = pd.concat(cleaned_chunks)
            # Sortierung sicherstellen
            if 'sprung nr.' in final_df.columns:
                final_df = final_df.sort_values(by=['messung', 'sprung nr.'])
            
            final_df.to_csv(os.path.join(output_folder, file_name), index=False)

    print(f"\n‚úÖ SD-Bereinigung abgeschlossen. Dateien in: {output_folder}")

# Ausf√ºhrung
clean_jumps_with_sd('jump_analysis_results_Pressure_angepasst/', 
                    'jump_analysis_results_SD_CLEANED/', 
                    sd_factor=1.2) # Strenger!

# 2. MANUELLE KORREKTUR: Till Schr√∂ter Real 2 Sprung 5 entfernen
file_path = 'jump_analysis_results_SD_CLEANED/ID_4_Schr√∂ter_Till_jumps.csv'

if os.path.exists(file_path):
    # Datei einladen
    df_manual = pd.read_csv(file_path)
    
    # Zeile finden und entfernen
    # Wir behalten alle Zeilen, au√üer die Kombination aus REAL_2 und Sprung 5
    df_filtered = df_manual[~((df_manual['messung'] == 'REAL_2') & (df_manual['sprung nr.'] == 5))]
    
    # Speichern (√ºberschreibt die Datei im CLEANED-Ordner)
    df_filtered.to_csv(file_path, index=False)
    
    print(f"‚úÇÔ∏è Manuelle Korrektur erfolgreich: Till Schr√∂ter, REAL_2, Sprung 5 wurde entfernt.")
    print(f"   Anzahl Spr√ºnge vorher: {len(df_manual)} -> nachher: {len(df_filtered)}")


# normalverteilung nach outlier entfernung checken
normality_table = check_normality('jump_analysis_results_SD_CLEANED/')
print(normality_table)


‚úÖ SD-Bereinigung abgeschlossen. Dateien in: jump_analysis_results_SD_CLEANED/
‚úÇÔ∏è Manuelle Korrektur erfolgreich: Till Schr√∂ter, REAL_2, Sprung 5 wurde entfernt.
   Anzahl Spr√ºnge vorher: 18 -> nachher: 17
['jump_analysis_results_SD_CLEANED\\ID_1_Dabisch_Samuel_jumps.csv', 'jump_analysis_results_SD_CLEANED\\ID_2_Pohl_Jannis_jumps.csv', 'jump_analysis_results_SD_CLEANED\\ID_3_Kleber_Christian_jumps.csv', 'jump_analysis_results_SD_CLEANED\\ID_4_Schr√∂ter_Till_jumps.csv', 'jump_analysis_results_SD_CLEANED\\ID_5_Zaschke_Lenard_jumps.csv', 'jump_analysis_results_SD_CLEANED\\ID_6_Petroll_Finn_jumps.csv', 'jump_analysis_results_SD_CLEANED\\ID_7_Gruber_Julius_jumps.csv']
‚úÖ Check abgeschlossen. Ergebnisse in 'Normalverteilung_Check.csv' gespeichert.
               Teilnehmer Bedingung  p-Wert Normalverteilt?
0     ID_1_Dabisch_Samuel      REAL  0.4220              Ja
1     ID_1_Dabisch_Samuel        VR  0.6305              Ja
2        ID_2_Pohl_Jannis      REAL  0.2877              Ja

## hier werden der takeoff zeitpunkt anhand des Kniegelenks bestimmt

In [27]:
### takeofoff mit kniewinkel
def identify_jumps_by_knee(df, angle_col='RT Knee Flexion (deg)', min_jump_distance_sec=5.0, threshold_angle=60, buffer=0.75, fs=2000):
    """
    Identifiziert Spr√ºnge sequentiell ohne Filterung:
    Sucht nach dem Peak > 60¬∞ und nimmt das ALLERERSTE lokale Minimum danach als Takeoff.
    """
    angle = df[angle_col].values
    time = df['time'].values
    
    jumps_list = []
    i = 0
    pause_points = int(min_jump_distance_sec * fs)
    search_window_points = int(1.5 * fs)

    while i < len(angle):
        # A. Suche nach dem n√§chsten Punkt √ºber dem Schwellenwert (Ausholbewegung)
        if angle[i] >= threshold_angle:
            # 1. Den exakten Peak (maximale Beugung) im Umkreis finden
            peak_search_end = min(i + int(0.5 * fs), len(angle))
            peak_idx = i + np.argmax(angle[i:peak_search_end])
            
            # 2. Suche Takeoff: Das ERSTE lokale Minimum nach dem Peak
            takeoff_idx = peak_idx # Fallback
            
            # Wir laufen vom Peak vorw√§rts und suchen den ersten Punkt, 
            # an dem die Kurve nicht mehr weiter f√§llt.
            for j in range(peak_idx + 1, min(peak_idx + search_window_points, len(angle) - 1)):
                if angle[j] <= angle[j-1] and angle[j] <= angle[j+1]:
                    takeoff_idx = j
                    break
            else:
                # Falls kein lokales Minimum gefunden wurde, Backup: Absolutes Minimum
                search_end = min(peak_idx + search_window_points, len(angle))
                takeoff_idx = peak_idx + np.argmin(angle[peak_idx:search_end])

            # 3. Daten extrahieren
            t_absprung = time[takeoff_idx]
            start_analyse = max(0, t_absprung - buffer)
            
            jumps_list.append({
                'sprung nr.': len(jumps_list) + 1,
                'start_analyse': round(start_analyse, 4),
                't_absprung': round(t_absprung, 4)
            })
            
            # 4. Sperrfrist: 5 Sekunden nach dem Takeoff √ºberspringen
            i = takeoff_idx + pause_points
            continue
        
        i += 1
            
    return jumps_list

def visualize_knee_jumps(df, jumps_list, participant="", measurement=""):
    """
    Visualisiert die Sprungerkennung basierend auf dem Kniewinkel.
    Korrektur: alpha in tick_params entfernt, da nicht unterst√ºtzt.
    """
    time = df['time'].values
    # Sicherstellen, dass die Spalte exakt so hei√üt
    knee_angle = df['RT Knee Flexion (deg)'].values
    total_force = df['LT Force (N)'] + df['RT Force (N)']
    
    fig, ax1 = plt.subplots(figsize=(15, 7))

    # Prim√§re Achse: Kniewinkel
    ax1.plot(time, knee_angle, color='blue', alpha=0.6, label='Kniewinkel (RT Flexion)')
    ax1.set_ylabel('Kniewinkel (deg)', color='blue')
    ax1.tick_params(axis='y', labelcolor='blue') # alpha entfernt

    # # Sekund√§re Achse f√ºr die Kraft
    # ax2 = ax1.twinx()
    # ax2.plot(time, total_force, color='black', alpha=0.2, label='Gesamtkraft (N)')
    # ax2.set_ylabel('Kraft (N)', color='gray') 
    # ax2.tick_params(axis='y', labelcolor='gray') # alpha entfernt

    labeled_buffer = False
    labeled_takeoff = False

    for j in jumps_list:
        # 1. Analyse-Fenster (Buffer bis Takeoff)
        # Beachte: Die Keys m√ºssen 'start_analyse' und 't_absprung' sein (wie in deiner Funktion)
        ax1.axvspan(j['start_analyse'], j['t_absprung'], 
                    color='gray', alpha=0.15, 
                    label='Analyse-Fenster (Buffer)' if not labeled_buffer else "")
        labeled_buffer = True
        
        # 2. Vertikale Linie f√ºr Takeoff
        ax1.axvline(j['t_absprung'], color='red', linestyle='--', lw=2,
                    label='Takeoff (Knie-Extremum)' if not labeled_takeoff else "")
        labeled_takeoff = True
        
        # 3. Sprungnummer
        ax1.text(j['t_absprung'], max(knee_angle) * 0.95, f"S{j['sprung nr.']}", 
                 color='red', fontweight='bold', ha='right')

    plt.title(f"Knie-basierte Sprungerkennung: {participant} - {measurement} ({len(jumps_list)} Spr√ºnge)")
    ax1.set_xlabel("Zeit (s)")
    
    # Legenden zusammenf√ºhren
    lines1, labels1 = ax1.get_legend_handles_labels()
    # lines2, labels2 = ax2.get_legend_handles_labels()
    ax1.legend(lines1 , labels1 , loc='upper right')
    
    ax1.grid(True, alpha=0.2)
    plt.tight_layout()
    plt.show()

output_folder = 'jump_analysis_results_knee_alle'

# Erstelle Ausgabeverzeichnis, falls nicht vorhanden
os.makedirs(output_folder, exist_ok=True)

for participant in participants:
    print(f"\nVerarbeite {participant}...")
    
    all_jumps_data = []
    
    # Durchlaufe alle 4 Messungen
    for measurement in measurements:
        df = all_data[participant][measurement]
        
        # Identifiziere Spr√ºnge in dieser Messung
        jumps = identify_jumps_by_knee(df,  min_jump_distance_sec = 5, buffer=0.7)
        #visualize_knee_jumps(df, jumps, participant, measurement)

        # F√ºge Measurement-Info zu jedem Sprung hinzu
        for jump in jumps:
            jump['messung'] = measurement
            all_jumps_data.append(jump)
        
        print(f"  {measurement}: {len(jumps)} Spr√ºnge gefunden")
    
    # Erstelle DataFrame aus allen Spr√ºngen
    jumps_df = pd.DataFrame(all_jumps_data)
    
    # Speichere als CSV
    output_file = os.path.join(output_folder, f'{participant}_jumps.csv')
    jumps_df.to_csv(output_file, index=False)
    
    print(f"  ‚úì Gesamt: {len(all_jumps_data)} Spr√ºnge")
    print(f"  ‚úì CSV gespeichert: {output_file}")

print(f"\n{'='*80}")
print(f"Verarbeitung abgeschlossen!")
print(f"Alle CSVs wurden im Ordner '{output_folder}' gespeichert.")
print(f"{'='*80}")



Verarbeite ID_1_Dabisch_Samuel...
  REAL_1: 6 Spr√ºnge gefunden
  REAL_2: 6 Spr√ºnge gefunden
  VR_1: 6 Spr√ºnge gefunden
  VR_2: 6 Spr√ºnge gefunden
  ‚úì Gesamt: 24 Spr√ºnge
  ‚úì CSV gespeichert: jump_analysis_results_knee_alle\ID_1_Dabisch_Samuel_jumps.csv

Verarbeite ID_2_Pohl_Jannis...
  REAL_1: 6 Spr√ºnge gefunden
  REAL_2: 5 Spr√ºnge gefunden
  VR_1: 6 Spr√ºnge gefunden
  VR_2: 1 Spr√ºnge gefunden
  ‚úì Gesamt: 18 Spr√ºnge
  ‚úì CSV gespeichert: jump_analysis_results_knee_alle\ID_2_Pohl_Jannis_jumps.csv

Verarbeite ID_3_Kleber_Christian...
  REAL_1: 6 Spr√ºnge gefunden
  REAL_2: 6 Spr√ºnge gefunden
  VR_1: 6 Spr√ºnge gefunden
  VR_2: 6 Spr√ºnge gefunden
  ‚úì Gesamt: 24 Spr√ºnge
  ‚úì CSV gespeichert: jump_analysis_results_knee_alle\ID_3_Kleber_Christian_jumps.csv

Verarbeite ID_4_Schr√∂ter_Till...
  REAL_1: 6 Spr√ºnge gefunden
  REAL_2: 6 Spr√ºnge gefunden
  VR_1: 5 Spr√ºnge gefunden
  VR_2: 6 Spr√ºnge gefunden
  ‚úì Gesamt: 23 Spr√ºnge
  ‚úì CSV gespeichert: jump_analysis_re

### nur richtige spr√ºnge mit reinnehmen

In [28]:
def synchronize_knee_with_cleaned_jumps(knee_alle_folder, cleaned_folder, output_folder):
    """
    Filtert die Zeitstempel der Knie-Analyse so, dass nur noch die Spr√ºnge 
    √ºbrig bleiben, die auch die Outlier-Bereinigung (SD) bestanden haben.
    """
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)
        
    # Suche alle CSV-Dateien im Quellordner (Knie-Alle)
    knee_files = glob.glob(os.path.join(knee_alle_folder, "*.csv"))
    
    for knee_file_path in knee_files:
        file_name = os.path.basename(knee_file_path)
        cleaned_file_path = os.path.join(cleaned_folder, file_name)
        
        # Pr√ºfen, ob f√ºr diesen Teilnehmer eine bereinigte Datei existiert
        if not os.path.exists(cleaned_file_path):
            print(f"‚ö†Ô∏è Keine bereinigte Datei f√ºr {file_name} gefunden. √úberspringe...")
            continue
            
        # 1. Daten laden
        df_knee = pd.read_csv(knee_file_path)
        df_cleaned = pd.read_csv(cleaned_file_path)
        
        # Spaltennamen s√§ubern
        df_knee.columns = df_knee.columns.str.strip()
        df_cleaned.columns = df_cleaned.columns.str.strip()
        
        # 2. Synchronisieren (Inner Join)
        # Wir behalten nur Zeilen aus df_knee, deren Kombi aus 'messung' 
        # und 'sprung nr.' auch in df_cleaned vorkommt.
        # Wir nutzen merge, um nur die Spalten von df_knee zu behalten.
        df_synced = pd.merge(
            df_knee, 
            df_cleaned[['messung', 'sprung nr.']], 
            on=['messung', 'sprung nr.'], 
            how='inner'
        )
        
        # 3. Sortierung beibehalten (Optional, aber sauberer)
        df_synced = df_synced.sort_values(by=['messung', 'sprung nr.'])
        
        # 4. Speichern
        output_path = os.path.join(output_folder, file_name)
        df_synced.to_csv(output_path, index=False)
        
        removed = len(df_knee) - len(df_synced)
        print(f"‚úÖ {file_name}: {len(df_synced)} Spr√ºnge synchronisiert ({removed} Outlier entfernt)")

# --- AUSF√úHRUNG ---
synchronize_knee_with_cleaned_jumps(
    knee_alle_folder='jump_analysis_results_knee_alle', 
    cleaned_folder='jump_analysis_results_SD_CLEANED', 
    output_folder='jump_analysis_results_knee'
)

‚úÖ ID_1_Dabisch_Samuel_jumps.csv: 17 Spr√ºnge synchronisiert (7 Outlier entfernt)
‚úÖ ID_2_Pohl_Jannis_jumps.csv: 14 Spr√ºnge synchronisiert (4 Outlier entfernt)
‚úÖ ID_3_Kleber_Christian_jumps.csv: 19 Spr√ºnge synchronisiert (5 Outlier entfernt)
‚úÖ ID_4_Schr√∂ter_Till_jumps.csv: 17 Spr√ºnge synchronisiert (6 Outlier entfernt)
‚úÖ ID_5_Zaschke_Lenard_jumps.csv: 22 Spr√ºnge synchronisiert (2 Outlier entfernt)
‚úÖ ID_6_Petroll_Finn_jumps.csv: 17 Spr√ºnge synchronisiert (7 Outlier entfernt)
‚úÖ ID_7_Gruber_Julius_jumps.csv: 19 Spr√ºnge synchronisiert (5 Outlier entfernt)


## Zeitnormieren auf sekunde vor takeoff

In [29]:
### Zeitnormerierung der Spr√ºnge basierend auf Knie-Extraktion
def time_normalize_jumps_knee(df, participant_name, measurement_type, 
                             jumps_csv_folder='jump_analysis_results_knee', 
                             normalize_points=100):
    """
    Normiert die Spr√ºnge basierend auf der Knie-Extraktion (start_analyse bis t_absprung).
    
    Parameters:
    -----------
    df : pd.DataFrame
        Der Rohdaten-DataFrame (z.B. df_real1).
    participant_name : str
        Name des Probanden (f√ºr den CSV-Dateinamen).
    measurement_type : str
        Die aktuelle Messung (z.B. 'REAL_1').
    jumps_csv_folder : str
        Ordner, in dem die Ergebnisse der Knie-Analyse liegen.
    normalize_points : int
        Anzahl der Datenpunkte nach der Normierung (Standard: 100).
    """
    
    # Pfad zur CSV (jetzt aus dem knee-Ordner)
    jumps_csv_path = os.path.join(jumps_csv_folder, f'{participant_name}_jumps.csv')
    
    if not os.path.exists(jumps_csv_path):
        print(f"Warnung: CSV nicht gefunden {jumps_csv_path}")
        return {}
    
    # 1. CSV laden
    jumps_info = pd.read_csv(jumps_csv_path)
    
    # 2. Filter auf die aktuelle Messung (z.B. nur REAL_1)
    relevant_jumps = jumps_info[jumps_info['messung'] == measurement_type]
    
    normalized_jumps = {}
    
    # 3. √úber die gefundenen Spr√ºnge iterieren
    for idx, row in relevant_jumps.iterrows():
        # Zeitgrenzen aus deiner neuen Struktur
        start_time = row['start_analyse']
        end_time = row['t_absprung']
        jump_nr = int(row['sprung nr.'])
        
        # Daten im Zeitfenster ausschneiden
        mask = (df['time'] >= start_time) & (df['time'] <= end_time)
        jump_data = df[mask].reset_index(drop=True)
        
        # Sicherheitscheck falls keine Daten im Fenster sind
        if len(jump_data) < 2:
            continue
            
        # --- Zeit-Normierung (Interpolation) ---
        # Erstelle Indizes f√ºr die urspr√ºnglichen Daten (z.B. 0 bis 145)
        original_indices = np.linspace(0, len(jump_data) - 1, len(jump_data))
        # Erstelle Indizes f√ºr die Ziel-Punkte (z.B. 0 bis 99)
        new_indices = np.linspace(0, len(jump_data) - 1, normalize_points)
        
        normalized_data = {}
        for col in jump_data.columns:
            # Nur numerische Spalten (Kraft, Winkel, EMG) interpolieren
            if pd.api.types.is_numeric_dtype(jump_data[col]):
                normalized_data[col] = np.interp(new_indices, original_indices, jump_data[col].values)
            else:
                # Nicht-numerische Spalten (z.B. ID) einfach den ersten Wert beibehalten
                normalized_data[col] = [jump_data[col].iloc[0]] * normalize_points
        
        # F√ºge die normierte Zeitachse (0% bis 100%) hinzu
        normalized_data['time_normalized'] = np.linspace(0, 1, normalize_points)
        
        # In DataFrame umwandeln
        normalized_df = pd.DataFrame(normalized_data)
        
        # Eindeutiger Key f√ºr das Dictionary
        key = f"{measurement_type}_jump_{jump_nr}"
        normalized_jumps[key] = normalized_df
    
    return normalized_jumps

# %% Zeit-Normierung basierend auf Knie-Extraktion
print(f"\nStarte Zeit-Normierung (Knie-Logik)...")

# Neues Zielverzeichnis f√ºr die Knie-Ergebnisse
output_folder_knee = 'jump_analysis_results_knee'
# output_folder_knee = 'jump_analysis_results_SD_CLEANED'  # Angepasster Ordnername

all_normalized_data = {}

for participant in participants:
    print(f"Normiere Daten f√ºr {participant}...")
    all_normalized_data[participant] = {}
    
    for measurement in measurements:
        df = all_data[participant][measurement]
        
        # Wichtig: Nutze hier die neue Funktion, die 'start_analyse' und 't_absprung' liest
        norm_jumps_dict = time_normalize_jumps_knee(
            df, 
            participant, 
            measurement, 
            jumps_csv_folder=output_folder_knee, # Ge√§nderter Ordner
            normalize_points=100
        )
        
        # Speichern im Haupt-Dictionary
        all_normalized_data[participant].update(norm_jumps_dict)
        
        print(f"  ‚úì {measurement}: {len(norm_jumps_dict)} Spr√ºnge normiert")
    
    print (len(all_normalized_data[participant]))


print(f"\nFertig! Alle Spr√ºnge sind nun zeitnormiert (Buffer -> Take-off) verf√ºgbar.")


# DIAGNOSE: Wie viele Spr√ºnge sind wirklich im Dictionary?
total_real = 0
total_vr = 0

print("--- Check pro Teilnehmer ---")
for p_id in all_normalized_data:
    keys = list(all_normalized_data[p_id].keys())
    real_count = len([k for k in keys if 'REAL' in k])
    vr_count = len([k for k in keys if 'VR' in k])
    print(f"{p_id}: REAL={real_count}, VR={vr_count}")
    total_real += real_count
    total_vr += vr_count

print(f"\nGESAMT-STATISTIK:")
print(f"REAL: {total_real} Spr√ºnge (von urspr√ºnglich 84)")
print(f"VR:   {total_vr} Spr√ºnge (von urspr√ºnglich 84)")


Starte Zeit-Normierung (Knie-Logik)...
Normiere Daten f√ºr ID_1_Dabisch_Samuel...
  ‚úì REAL_1: 4 Spr√ºnge normiert
  ‚úì REAL_2: 4 Spr√ºnge normiert
  ‚úì VR_1: 5 Spr√ºnge normiert
  ‚úì VR_2: 4 Spr√ºnge normiert
17
Normiere Daten f√ºr ID_2_Pohl_Jannis...
  ‚úì REAL_1: 5 Spr√ºnge normiert
  ‚úì REAL_2: 4 Spr√ºnge normiert
  ‚úì VR_1: 5 Spr√ºnge normiert
  ‚úì VR_2: 0 Spr√ºnge normiert
14
Normiere Daten f√ºr ID_3_Kleber_Christian...
  ‚úì REAL_1: 5 Spr√ºnge normiert
  ‚úì REAL_2: 4 Spr√ºnge normiert
  ‚úì VR_1: 6 Spr√ºnge normiert
  ‚úì VR_2: 4 Spr√ºnge normiert
19
Normiere Daten f√ºr ID_4_Schr√∂ter_Till...
  ‚úì REAL_1: 3 Spr√ºnge normiert
  ‚úì REAL_2: 5 Spr√ºnge normiert
  ‚úì VR_1: 5 Spr√ºnge normiert
  ‚úì VR_2: 4 Spr√ºnge normiert
17
Normiere Daten f√ºr ID_5_Zaschke_Lenard...
  ‚úì REAL_1: 5 Spr√ºnge normiert
  ‚úì REAL_2: 6 Spr√ºnge normiert
  ‚úì VR_1: 5 Spr√ºnge normiert
  ‚úì VR_2: 6 Spr√ºnge normiert
22
Normiere Daten f√ºr ID_6_Petroll_Finn...
  ‚úì REAL_1: 4 Spr√ºnge normi

## Knie, H√ºft und Sprunggelenk kurven pro teilneher und √ºber alle teilnehmer + mittelwert/ standartabweichung 

In [30]:
### Plotten und speichern der normalisierten Bedingungen
def plot_normalized_conditions(normalized_dict, participant_name, condition_type, column_to_plot):
    """
    Fasst alle Spr√ºnge einer Bedingung (z.B. REAL_1 + REAL_2) zusammen.
    Erstellt:
    1. Ein gro√ües Subplot-Bild mit allen ~12 Spr√ºngen.
    2. Ein Vergleichsbild (Overlaid) mit dem Gesamt-Mittelwert der Bedingung.
    """
    # 1. Vorbereitung Ordnerstruktur
    target_dir = os.path.join('Pictures_Test', 'Conditions_Combined', column_to_plot.replace(' ', '_'))
    os.makedirs(target_dir, exist_ok=True)
    
    # Filtere die Keys: Sucht nach allen Keys, die den Bedingungs-String enthalten
    # z.B. wenn condition_type='REAL', findet er 'REAL_1_jump_1' bis 'REAL_2_jump_6'
    jump_keys = [k for k in normalized_dict.keys() if condition_type in k]
    num_jumps = len(jump_keys)
    
    if num_jumps == 0:
        print(f"Keine Daten f√ºr Bedingung {condition_type} bei {participant_name} gefunden.")
        return

    # Daten sammeln
    all_values = []
    time_normalized = None

    # --- GRAFIK 1: SUBPLOTS (Alle 12 untereinander) ---
    # Wir machen das Layout etwas kompakter, da 12 Spr√ºnge viel Platz brauchen
    fig_sub, axes = plt.subplots(num_jumps, 1, figsize=(10, 2 * num_jumps), sharex=True)
    if num_jumps == 1: axes = [axes]
    
    for i, key in enumerate(jump_keys):
        df_jump = normalized_dict[key]
        val = df_jump[column_to_plot].values
        all_values.append(val)
        if time_normalized is None:
            time_normalized = df_jump['time_normalized'].values * 100 # In Prozent umrechnen
            
        axes[i].plot(time_normalized, val, color='black', lw=1)
        axes[i].set_ylabel("Wert", fontsize=8)
        axes[i].set_title(f"{key}", fontsize=9, pad=2)
        axes[i].grid(True, alpha=0.2)
    
    plt.xlabel("Zeitverlauf Normiert (0-100% vor Takeoff)")
    plt.tight_layout()
    fig_sub.savefig(os.path.join(target_dir, f"{participant_name}_{condition_type}_all_subplots.png"))
    plt.close(fig_sub)

    # --- GRAFIK 2: √úBEREINANDERGELEGT (12 Spr√ºnge + 1 dicker Mittelwert) ---
    plt.figure(figsize=(11, 7))
    
    data_matrix = np.array(all_values)
    mean_val = np.mean(data_matrix, axis=0)
    std_val = np.std(data_matrix, axis=0)

    # Einzelne Spr√ºnge (sehr blass im Hintergrund)
    for i, val in enumerate(all_values):
        plt.plot(time_normalized, val, alpha=0.15, lw=1, color='gray')
    
    # Mittelwert (Fett in Farbe je nach Bedingung)
    color = 'blue' if 'REAL' in condition_type else 'red'
    plt.plot(time_normalized, mean_val, color=color, lw=4, label=f'Gesamt-Mittelwert {condition_type} (n={num_jumps})')
    
    # Standardabweichung (Schatten)
    plt.fill_between(time_normalized, mean_val - std_val, mean_val + std_val, 
                     color=color, alpha=0.2, label=f'Standardabweichung (¬±1 SD)')
    
    plt.title(f"Bedingungs-Analyse: {participant_name}\nVariable: {column_to_plot} | Bedingung: {condition_type}", fontsize=12)
    plt.xlabel("Vorbereitungsphase in % (0% = Start, 100% = Takeoff)")
    plt.ylabel(column_to_plot)
    plt.legend(loc='upper left', frameon=True)
    plt.grid(True, alpha=0.3)
    
    # Speichern Overlaid
    plt.savefig(os.path.join(target_dir, f"{participant_name}_{condition_type}_combined_mean.png"), dpi=300)
    plt.close()

    #print(f"  ‚úì Kombinierte {condition_type}-Grafiken (n={num_jumps}) gespeichert in: {target_dir}")

### Plot funkton f√ºr einen Winkel
def plot_everything_for_one_column_to_plot (normalized_dict, column_to_plot):
    """
    Wrapper-Funktion, um f√ºr alle Teilnehmer und eine bestimmte Spalte die 
    kombinierten Plots zu erstellen.
    """
    print(f"\nStarte Generierung der kombinierten Plots (12 Spr√ºnge pro Bedingung)...")

    for participant in participants:
        #print(f"\nErstelle kombinierte Plots f√ºr {participant} - Variable: {column_to_plot}")
        
        # Bedingungen REAL und VR
        for condition in ['REAL', 'VR']:
            plot_normalized_conditions(
                normalized_dict[participant], 
                participant, 
                condition, 
                column_to_plot
            )
        
        print (len(normalized_dict[participant]))
        # print(f"  ‚úì Bedingungen REAL und VR f√ºr {participant} erfolgreich zusammengefasst.")
    
    print(f"\n{'='*30}")
    print("ALLE KOMBINIERTEN GRAFIKEN ERSTELLT")
    print(f"Speicherort: Pictures_Test/Conditions_Combined/{column_to_plot.replace(' ', '_').replace('(', '').replace(')', '')}/")
    print(f"{'='*30}")  

### globaler plot f√ºr alle Teilnehmer einer Bedingung
def plot_global_condition_comparison(all_participants_dict, condition_type, column_to_plot, plot_true_false=False):
    """
    Erstellt einen Plot f√ºr ALLE Teilnehmer zusammengefasst f√ºr eine Bedingung (REAL oder VR).
    - D√ºnne graue Linien: Jeder einzelne Sprung (n=~84)
    - Dicke farbige Linie: Gesamt-Mittelwert √ºber alle Teilnehmer
    - Schattierter Bereich: Standardabweichung
    """
    
    # 1. Vorbereitung Ordnerstruktur
    target_dir = os.path.join('Pictures_Test', 'Global_Comparison', column_to_plot.replace(' ', '_'))
    os.makedirs(target_dir, exist_ok=True)
    
    all_values = []
    time_normalized = None
    total_jumps_count = 0

    # 2. Daten sammeln √ºber alle Teilnehmer hinweg
    for p_name, normalized_dict in all_participants_dict.items():
        # Suche Spr√ºnge f√ºr die Bedingung (z.B. REAL) bei diesem Teilnehmer
        jump_keys = [k for k in normalized_dict.keys() if condition_type in k]
        
        for key in jump_keys:
            df_jump = normalized_dict[key]
            val = df_jump[column_to_plot].values
            all_values.append(val)
            
            if time_normalized is None:
                # In Prozent umrechnen (0-100)
                time_normalized = df_jump['time_normalized'].values * 100
            
            total_jumps_count += 1

    if total_jumps_count == 0:
        print(f"Keine Daten f√ºr {condition_type} in der gesamten Gruppe gefunden.")
        return

    # 3. Statistik berechnen
    data_matrix = np.array(all_values)
    mean_val = np.mean(data_matrix, axis=0)
    std_val = np.std(data_matrix, axis=0)

    # 4. Plotting
    plt.figure(figsize=(12, 8))
    
    # Einzelne Spr√ºnge (84 d√ºnne Linien)
    for val in all_values:
        plt.plot(time_normalized, val, alpha=0.08, lw=0.8, color='gray') # Sehr blass f√ºr die Masse
    
    # Farbe festlegen
    main_color = 'blue' if 'REAL' in condition_type else 'red'
    
    # Standardabweichung (Schatten)
    plt.fill_between(time_normalized, mean_val - std_val, mean_val + std_val, 
                     color=main_color, alpha=0.15, label=f'SD (¬±1 œÉ)')
    
    # Mittelwert (Fett)
    plt.plot(time_normalized, mean_val, color=main_color, lw=3.5, 
             label=f'Gesamt-Mittelwert {condition_type} (n={total_jumps_count} Spr√ºnge)')
    
    # Layout & Beschriftung
    plt.title(f"Globale Analyse: Alle Teilnehmer\nVariable: {column_to_plot} | Bedingung: {condition_type}", fontsize=14)
    plt.xlabel("Bewegungszyklus in % (0% = Start, 100% = Takeoff)", fontsize=12)
    plt.ylabel(column_to_plot, fontsize=12)
    plt.xlim(0, 100)
    plt.legend(loc='best', frameon=True)
    plt.grid(True, linestyle='--', alpha=0.5)
    
    # Speichern
    file_name = f"GLOBAL_{condition_type}_{column_to_plot.replace(' ', '_')}.png"
    plt.savefig(os.path.join(target_dir, file_name), dpi=300, bbox_inches='tight')
    if plot_true_false == True:
        plt.show()
    plt.close()

    print(f"  ‚úì Globaler Plot gespeichert: {file_name} (n={total_jumps_count} Spr√ºnge)")


### Gelenke pro Teilnehmer:

In [31]:
# plots f√ºr Knie aufrufen
colum_to_Plot = 'RT Knee Flexion (deg)'
plot_everything_for_one_column_to_plot(all_normalized_data, colum_to_Plot)


Starte Generierung der kombinierten Plots (12 Spr√ºnge pro Bedingung)...
17
14
19
17
22
17
19

ALLE KOMBINIERTEN GRAFIKEN ERSTELLT
Speicherort: Pictures_Test/Conditions_Combined/RT_Knee_Flexion_deg/


In [32]:
# plots f√ºr H√ºfte aufrufen
colum_to_Plot = 'RT Hip Flexion (deg)'
plot_everything_for_one_column_to_plot(all_normalized_data, colum_to_Plot)


Starte Generierung der kombinierten Plots (12 Spr√ºnge pro Bedingung)...
17
14
19
17
22
17
19

ALLE KOMBINIERTEN GRAFIKEN ERSTELLT
Speicherort: Pictures_Test/Conditions_Combined/RT_Hip_Flexion_deg/


In [33]:
# plots f√ºr Sprunggelenk aufrufen
colum_to_Plot = 'RT Ankle Dorsiflexion (deg)'
plot_everything_for_one_column_to_plot(all_normalized_data, colum_to_Plot)



Starte Generierung der kombinierten Plots (12 Spr√ºnge pro Bedingung)...
17
14
19
17
22
17
19

ALLE KOMBINIERTEN GRAFIKEN ERSTELLT
Speicherort: Pictures_Test/Conditions_Combined/RT_Ankle_Dorsiflexion_deg/


### Globaler Plot mit allen Teilnehmern zusammen

In [34]:
### globale plots f√ºr Knie vergleichen
colum_to_Plot = 'RT Knee Flexion (deg)'
plot_global_condition_comparison(all_normalized_data, 'REAL', colum_to_Plot)
plot_global_condition_comparison(all_normalized_data, 'VR', colum_to_Plot)

### globale plots f√ºr H√ºfte vergleichen
colum_to_Plot = 'RT Hip Flexion (deg)'
plot_global_condition_comparison(all_normalized_data, 'REAL', colum_to_Plot)
plot_global_condition_comparison(all_normalized_data, 'VR', colum_to_Plot)

  ‚úì Globaler Plot gespeichert: GLOBAL_REAL_RT_Knee_Flexion_(deg).png (n=64 Spr√ºnge)
  ‚úì Globaler Plot gespeichert: GLOBAL_VR_RT_Knee_Flexion_(deg).png (n=61 Spr√ºnge)
  ‚úì Globaler Plot gespeichert: GLOBAL_REAL_RT_Hip_Flexion_(deg).png (n=64 Spr√ºnge)
  ‚úì Globaler Plot gespeichert: GLOBAL_VR_RT_Hip_Flexion_(deg).png (n=61 Spr√ºnge)


## Parameter Bestimmen

### Maximaler Winkel innerhalb der Fenster

In [35]:
### Parameter extrahieren
def extract_max_parameter(normalized_dict, column_to_process):
    """
    Extrahiert den Maximalwert einer Spalte f√ºr jeden Sprung.
    Gibt ein Dictionary zur√ºck: {'REAL_1_jump_1': 65.4, ...}
    """
    results = {}
    
    for jump_key, df_jump in normalized_dict.items():
        if column_to_process in df_jump.columns:
            max_val = df_jump[column_to_process].max()
            results[jump_key] = round(max_val, 2)
    
    type = 'Maximalwert'
    return results, type

### Parameter speichern/aktualisieren
def update_participant_parameters(participant_name, new_data_dict, column_label, type):
    """
    Speichert Parameter in einer CSV. 
    Garantiert korrekte Spaltenbenennung und verhindert KeyErrors beim Mergen.
    """
    folder = 'Parameter_IMU'
    os.makedirs(folder, exist_ok=True)
    file_path = os.path.join(folder, f'{participant_name}_parameter_{type}.csv')
    
    # 1. Neuen DataFrame aus dem Dictionary erstellen
    rows = []
    for jump_key, value in new_data_dict.items():
        if '_jump_' in jump_key:
            parts = jump_key.split('_jump_')
            trial = parts[0]
            sprung_nr = int(parts[1]) # Als Zahl f√ºr saubere Sortierung
        else:
            trial, sprung_nr = jump_key, 0
        
        rows.append({
            'participant': participant_name,
            'trial': trial,
            'sprung_nr': sprung_nr,
            column_label: value
        })
    
    new_df = pd.DataFrame(rows)
    
    # 2. Falls Datei existiert, einlesen und mergen
    if os.path.exists(file_path):
        try:
            existing_df = pd.read_csv(file_path, sep=';')
            
            # Sicherheitscheck: Falls 'participant' fehlt, wurde die CSV falsch erstellt
            if 'participant' not in existing_df.columns:
                print(f"  ! CSV von {participant_name} war fehlerhaft. Wird neu erstellt.")
                new_df.to_csv(file_path, sep=';', index=False)
                return

            # Falls die Spalte schon existiert, im alten DF l√∂schen (f√ºr das Update)
            if column_label in existing_df.columns:
                existing_df = existing_df.drop(columns=[column_label])
            
            # Mergen (Zusammenf√ºhren)
            updated_df = pd.merge(
                existing_df, 
                new_df, 
                on=['participant', 'trial', 'sprung_nr'], 
                how='outer'
            )
            
            # Sortieren (Real_1 vor Real_2, Sprung 1 vor Sprung 2)
            updated_df = updated_df.sort_values(by=['trial', 'sprung_nr'])
            updated_df.to_csv(file_path, sep=';', index=False)
            
        except Exception as e:
            print(f"  ! Fehler beim Update von {participant_name}: {e}. Erstelle Datei neu.")
            new_df.to_csv(file_path, sep=';', index=False)
    else:
        # 3. Datei existiert noch nicht: Neu erstellen
        new_df.to_csv(file_path, sep=';', index=False)

    print(f"  ‚úì Spalte '{column_label}' erfolgreich aktualisiert.")


# %% Parameter-Extraktion (Maximalwerte) --------------------------------------
print(f"\nStarte Extraktion der Maximalwerte...")

# Hier definierst du, welche Spalten du auswerten willst
# Der Key ist die Spalte im DF, der Value ist der Name f√ºr deine CSV
columns_to_analyze = {
    'RT Knee Flexion (deg)': 'RT_Knee_Max',
    'LT Knee Flexion (deg)': 'LT_Knee_Max',
    'RT Hip Flexion (deg)': 'RT_Hip_Max',
    'LT Hip Flexion (deg)': 'LT_Hip_Max',
    'RT Ankle Dorsiflexion (deg)': 'RT_Ankle_Max',
    'LT Ankle Dorsiflexion (deg)': 'LT_Ankle_Max'
}

for participant in participants:
    print(f"Verarbeite Parameter f√ºr {participant}:")
    
    for raw_col, csv_label in columns_to_analyze.items():
        # 1. Maxima berechnen
        max_values, type  = extract_max_parameter(all_normalized_data[participant], raw_col)
        
        # 2. CSV updaten/erstellen
        if max_values: # Nur wenn Daten gefunden wurden
            update_participant_parameters(participant, max_values, csv_label, type)

print(f"\n{'='*30}")
print(f"ALLE PARAMETER GESPEICHERT IM ORDNER 'Parameter_IMU'")
print(f"{'='*30}")



Starte Extraktion der Maximalwerte...
Verarbeite Parameter f√ºr ID_1_Dabisch_Samuel:
  ‚úì Spalte 'RT_Knee_Max' erfolgreich aktualisiert.
  ‚úì Spalte 'LT_Knee_Max' erfolgreich aktualisiert.
  ‚úì Spalte 'RT_Hip_Max' erfolgreich aktualisiert.
  ‚úì Spalte 'LT_Hip_Max' erfolgreich aktualisiert.
  ‚úì Spalte 'RT_Ankle_Max' erfolgreich aktualisiert.
  ‚úì Spalte 'LT_Ankle_Max' erfolgreich aktualisiert.
Verarbeite Parameter f√ºr ID_2_Pohl_Jannis:
  ‚úì Spalte 'RT_Knee_Max' erfolgreich aktualisiert.
  ‚úì Spalte 'LT_Knee_Max' erfolgreich aktualisiert.
  ‚úì Spalte 'RT_Hip_Max' erfolgreich aktualisiert.
  ‚úì Spalte 'LT_Hip_Max' erfolgreich aktualisiert.
  ‚úì Spalte 'RT_Ankle_Max' erfolgreich aktualisiert.
  ‚úì Spalte 'LT_Ankle_Max' erfolgreich aktualisiert.
Verarbeite Parameter f√ºr ID_3_Kleber_Christian:
  ‚úì Spalte 'RT_Knee_Max' erfolgreich aktualisiert.
  ‚úì Spalte 'LT_Knee_Max' erfolgreich aktualisiert.
  ‚úì Spalte 'RT_Hip_Max' erfolgreich aktualisiert.
  ‚úì Spalte 'LT_Hip_Max' e

In [16]:
### CSV f√ºr t test erstellen
def create_master_table_for_ttest(input_folder='Parameter_IMU'):
    """
    Liest alle Teilnehmer-Parameter-CSVs und erstellt eine Master-Tabelle.
    Pro Teilnehmer eine Zeile, Spalten getrennt nach REAL und VR Mittelwerten.
    """
    # 1. Alle relevanten CSVs finden (wir suchen nach den 'Maximalwert' Dateien)
    file_pattern = os.path.join(input_folder, '*_parameter_Maximalwert.csv')
    files = glob.glob(file_pattern)
    
    if not files:
        print("Keine Parameter-Dateien gefunden!")
        return

    master_rows = []

    for file_path in files:
        # CSV einlesen (sep=';' wie in deinem Code definiert)
        df = pd.read_csv(file_path, sep=';')
        
        participant_id = df['participant'].iloc[0]
        
        # Vorbereitung der Zeile f√ºr den Master-DF
        row = {'Participant_ID': participant_id}
        
        # 2. Bedingungen trennen
        # Wir suchen in der Spalte 'trial' nach 'REAL' oder 'VR'
        df_real = df[df['trial'].str.contains('REAL', na=False)]
        df_vr = df[df['trial'].str.contains('VR', na=False)]
        
        # 3. Spalten automatisch erkennen (alle au√üer Meta-Daten)
        # Das sind: RT_Knee_Max, LT_Knee_Max, etc.
        data_columns = [c for c in df.columns if c not in ['participant', 'trial', 'sprung_nr']]
        
        for col in data_columns:
            # Mittelwert f√ºr REAL berechnen
            if not df_real.empty:
                row[f'{col}_REAL_Mean'] = round(df_real[col].mean(), 2)
            else:
                row[f'{col}_REAL_Mean'] = None
                
            # Mittelwert f√ºr VR berechnen
            if not df_vr.empty:
                row[f'{col}_VR_Mean'] = round(df_vr[col].mean(), 2)
            else:
                row[f'{col}_VR_Mean'] = None
        
        master_rows.append(row)

    # 4. Master DataFrame erstellen
    master_df = pd.DataFrame(master_rows)
    
    # Sortieren nach ID
    master_df = master_df.sort_values('Participant_ID')
    
    # 5. Speichern
    output_path = 'Parameter_IMU/Master_Table_for_T-Test.csv'
    master_df.to_csv(output_path, sep=';', index=False)
    
    print(f"\n‚úÖ Master-Tabelle mit {len(master_df)} Teilnehmern erstellt.")
    print(f"Datei gespeichert unter: {output_path}")
    
    return master_df

# --- AUSF√úHRUNG ---
master_data = create_master_table_for_ttest()

# Kurze Vorschau der Spalten
print("\nErstellte Spalten f√ºr den T-Test:")
print(master_data.columns.tolist())


‚úÖ Master-Tabelle mit 7 Teilnehmern erstellt.
Datei gespeichert unter: Parameter_IMU/Master_Table_for_T-Test.csv

Erstellte Spalten f√ºr den T-Test:
['Participant_ID', 'RT_Knee_Max_REAL_Mean', 'RT_Knee_Max_VR_Mean', 'LT_Knee_Max_REAL_Mean', 'LT_Knee_Max_VR_Mean', 'RT_Hip_Max_REAL_Mean', 'RT_Hip_Max_VR_Mean', 'LT_Hip_Max_REAL_Mean', 'LT_Hip_Max_VR_Mean', 'RT_Ankle_Max_REAL_Mean', 'RT_Ankle_Max_VR_Mean', 'LT_Ankle_Max_REAL_Mean', 'LT_Ankle_Max_VR_Mean']
