# Deskriptive Analyse der Fragen Q1 bis Q8

In diesem Abschnitt wird eine deskriptive statistische Analyse für die Fragen Q1 bis Q8 (einschließlich ihrer numerischen Unterfragen) aus dem Datensatz `Köhler_Iselborn_Rohdatensatz_Zenodo.csv` durchgeführt. Für jede Frage werden Mittelwert, Standardabweichung, Minimum, Maximum, Modus und die Häufigkeit des Modus berechnet. Der Wert -99, der "keine Angabe" repräsentiert, wird als fehlender Wert (NaN) behandelt.

In [1]:
import pandas as pd
import numpy as np

# Daten laden
file_path = '../../data/Köhler_Iselborn_Rohdatensatz_Zenodo.csv'
df = pd.read_csv(file_path)

# Spalten für die Analyse definieren (Q1-Q8, numerische Unterfragen, Q3 auslassen)
question_columns = ['Q1']
question_columns.extend([f'Q2{chr(ord("A")+i)}' for i in range(7)]) # Q2A to Q2G
# Q3 ist eine Textfrage und wird hier übersprungen
question_columns.extend([f'Q4{chr(ord("A")+i)}' for i in range(8)]) # Q4A to Q4H
question_columns.append('Q5')
question_columns.extend([f'Q6{chr(ord("A")+i)}' for i in range(6)]) # Q6A to Q6F
question_columns.extend([f'Q7{chr(ord("A")+i)}' for i in range(6)]) # Q7A to Q7F
question_columns.extend([f'Q8{chr(ord("A")+i)}' for i in range(12)]) # Q8A to Q8L

results = []

for col in question_columns:
    if col in df.columns:
        # Serie kopieren und -99 durch NaN ersetzen
        series_cleaned = df[col].replace(-99, np.nan).copy()
        
        # Statistiken berechnen
        mean_val = series_cleaned.mean()
        std_val = series_cleaned.std()
        min_val = series_cleaned.min()
        max_val = series_cleaned.max()
        
        mode_val = np.nan
        frequency_val = np.nan
        
        if series_cleaned.notna().sum() > 0:
            mode_series = series_cleaned.mode()
            if not mode_series.empty:
                mode_val = mode_series.iloc[0]
                # Sicherstellen, dass frequency_val eine Zahl ist, auch wenn mode_val NaN ist (sollte nicht passieren hier)
                # oder wenn der Modus nicht in den value_counts auftaucht (sehr unwahrscheinlich)
                frequency_val = series_cleaned.value_counts().get(mode_val, 0) if pd.notna(mode_val) else 0
        
        results.append({
            'Column': col,
            'Mean': mean_val,
            'Std': std_val,
            'Min': min_val,
            'Max': max_val,
            'Mode': mode_val,
            'Frequency': int(frequency_val) if pd.notna(frequency_val) else np.nan # Frequenz als Int, falls nicht NaN
        })

# Ergebnisse als DataFrame darstellen
df_results = pd.DataFrame(results)

# DataFrame ausgeben
print(df_results.to_string())

   Column      Mean       Std  Min  Max  Mode  Frequency
0      Q1  3.072761  1.019586  1.0  5.0   3.0        238
1     Q2A  2.437383  0.566962  1.0  3.0   2.0        261
2     Q2B  2.654784  0.521133  1.0  3.0   3.0        361
3     Q2C  1.382298  0.558626  1.0  3.0   1.0        348
4     Q2D  1.347826  0.564076  1.0  3.0   1.0        369
5     Q2E  2.254753  0.689877  1.0  3.0   2.0        242
6     Q2F  2.486486  0.608460  1.0  3.0   3.0        283
7     Q2G  2.183752  0.717370  1.0  3.0   2.0        234
8     Q4A  2.653179  0.544492  1.0  3.0   3.0        357
9     Q4B  2.107075  0.750484  1.0  3.0   2.0        223
10    Q4C  1.367906  0.571948  1.0  3.0   1.0        347
11    Q4D  1.937262  0.677432  1.0  3.0   2.0        283
12    Q4E  1.639692  0.677296  1.0  3.0   1.0        246
13    Q4F  1.249516  0.514918  1.0  3.0   1.0        408
14    Q4G  1.064833  0.283609  1.0  3.0   1.0        481
15    Q4H  1.072407  0.326361  1.0  3.0   1.0        484
16     Q5  2.077505  1.154555  

In [None]:
# Ergebnisse als CSV-Datei speichern
output_csv_path = '../../data/stat_summaryQ1toQ8.csv'
df_results.to_csv(output_csv_path, index=False, encoding='utf-8')

print(f"Die Ergebnisse wurden erfolgreich in '{output_csv_path}' gespeichert.")

## Erläuterung der berechneten Spalten

In der obigen Tabelle bedeuten:

*   **Column**: Der Name der Spalte (Frage oder Unterfrage) aus dem Datensatz.
*   **Mean**: Der Durchschnittswert der Antworten für diese Frage.
*   **Std**: Die Standardabweichung, ein Maß für die Streuung der Antworten um den Mittelwert.
*   **Min**: Der kleinste Wert, der für diese Frage gegeben wurde.
*   **Max**: Der größte Wert, der für diese Frage gegeben wurde.
*   **Mode**: Der Wert, der am häufigsten für diese Frage genannt wurde. Wenn mehrere Werte gleich häufig vorkommen, wird hier einer davon angezeigt (typischerweise der kleinste).
*   **Frequency**: Die Anzahl, wie oft der Modus (der häufigste Wert) in den Antworten für diese Frage vorkommt.