In [27]:
"""
    F√ºhrt einen Kruskal-Wallis-Test durch f√ºr ordinal- oder intervallskalierte UX-Daten.

    Die Funktion testet, ob es signifikante Unterschiede zwischen drei oder mehr unabh√§ngigen Gruppen
    gibt (z.‚ÄØB. verschiedene Design-Varianten oder Nutzergruppen), ohne die Annahme der Normalverteilung.
    Zus√§tzlich wird die Effektst√§rke (Œ∑¬≤) berechnet sowie paarweise Post-hoc-Vergleiche (Mann-Whitney U)
    mit Bonferroni-Korrektur durchgef√ºhrt.

    Parameter:
    - data: Pandas DataFrame mit den UX-Daten
    - group_col: Spaltenname der Gruppierungsvariable (z.‚ÄØB. "Group")
    - value_col: Spaltenname der numerischen Zielgr√∂sse (z.‚ÄØB. "Score")

    R√ºckgabe:
    - Dictionary mit:
        - 'Kruskal_Wallis_Test': Teststatistik und p-Wert des Kruskal-Wallis-Tests
        - 'Effect_Size': Œ∑¬≤ als Mass f√ºr die Effektst√§rke
        - 'Pairwise_Comparisons': DataFrame mit Post-hoc-Vergleichen und adjustierten p-Werten
"""

import pandas as pd
import numpy as np
from scipy.stats import kruskal
from itertools import combinations
from statsmodels.stats.multitest import multipletests

def kruskal_wallis_test(data, group_col, value_col):
    # 1. Gruppen extrahieren
    groups = data[group_col].unique()
    group_data = [data[data[group_col] == g][value_col] for g in groups]

    # 2. Kruskal-Wallis-Test
    stat, p_value = kruskal(*group_data)
    k_result = {'H-statistic': stat, 'p-value': p_value}

    # 3. Effektst√§rke Œ∑¬≤ berechnen
    n_total = len(data)
    eta_squared = (stat - len(groups) + 1) / (n_total - 1)
    eff_result = {'eta_squared': eta_squared}

    # 4. Paarweise Vergleiche (Dunn-√§hnlich mit Mann-Whitney U)
    comparisons = list(combinations(groups, 2))
    pvals = []

    for g1, g2 in comparisons:
        x = data[data[group_col] == g1][value_col]
        y = data[data[group_col] == g2][value_col]
        from scipy.stats import mannwhitneyu
        _, p = mannwhitneyu(x, y, alternative='two-sided')
        pvals.append(p)

    # Bonferroni-Korrektur
    reject, pvals_corrected, _, _ = multipletests(pvals, method='bonferroni')

    # Ergebnisse zusammenfassen
    posthoc_results = pd.DataFrame({
        'Group1': [g1 for g1, g2 in comparisons],
        'Group2': [g2 for g1, g2 in comparisons],
        'p-value_raw': pvals,
        'p-value_adj': pvals_corrected,
        'significant': reject
    })

    return {
        'Kruskal_Wallis_Test': k_result,
        'Effect_Size': eff_result,
        'Pairwise_Comparisons': posthoc_results
    }


## üöÄ Anwendungsbeispiel

In [30]:
import pandas as pd

# Beispieldaten: Drei verschiedene Designs, System Usability Scale (SUS)-Scores
data = {
    'Design': ['A', 'A', 'A', 'A', 'A',
               'B', 'B', 'B', 'B', 'B',
               'C', 'C', 'C', 'C', 'C'],
    
    'UX_Score': [72, 75, 78, 74, 76,   # Gruppe A: mittlere Zufriedenheit
                 73, 76, 79, 75, 77,   # Gruppe B: fast gleich wie A
                 83, 85, 87, 84, 86]   # Gruppe C: sichtbar h√∂her
}

# DataFrame erstellen
df = pd.DataFrame(data)

In [32]:
# Durchf√ºhrung des Kruskal-Wallis-Tests
ergebnisse = kruskal_wallis_test(df, group_col='Design', value_col='UX_Score')

# Ausgabe der Resultate
print("Kruskal-Wallis-Test:")
print(ergebnisse['Kruskal_Wallis_Test'])

print("\nEffektst√§rke Œ∑¬≤:")
print(ergebnisse['Effect_Size'])

print("\nPost-hoc-Vergleiche mit Bonferroni-Korrektur:")
print(ergebnisse['Pairwise_Comparisons'])


Kruskal-Wallis-Test:
{'H-statistic': np.float64(9.654480286738355), 'p-value': np.float64(0.008008593363531068)}

Effektst√§rke Œ∑¬≤:
{'eta_squared': np.float64(0.5467485919098826)}

Post-hoc-Vergleiche mit Bonferroni-Korrektur:
  Group1 Group2  p-value_raw  p-value_adj  significant
0      A      B     0.528359      1.00000        False
1      A      C     0.007937      0.02381         True
2      B      C     0.007937      0.02381         True


### üìñ Erkl√§rung und Interpretation

#### √úberblick: Was zeigt der Test?

Es wurde ein **Kruskal-Wallis-Test** durchgef√ºhrt, um zu pr√ºfen, ob sich die UX-Scores (z.‚ÄØB. aus einem SUS-Fragebogen) **zwischen den Gruppen A, B und C signifikant unterscheiden**.
Da der Test nicht-parametrisch ist, eignet er sich f√ºr ordinalskalierte Daten oder bei Nicht-Normalverteilung.


#### Testergebnis ‚Äì Interpretation

| Test                | Ergebnis |
| ------------------- | -------- |
| **H-Statistik**     | 9.65     |
| **p-Wert**          | 0.0080   |
| **Effektst√§rke Œ∑¬≤** | 0.547    |

* ‚úÖ Der **p-Wert ist < 0.05** ‚Üí Es gibt **signifikante Unterschiede** zwischen mindestens zwei Gruppen.
* ‚úÖ Die **Effektst√§rke Œ∑¬≤ = 0.55** zeigt einen **starken Unterschied** zwischen den Gruppen (Faustregel: >‚ÄØ0.14 = grosser Effekt).



#### Paarweise Post-hoc-Vergleiche (Bonferroni-korrigiert)

| Gruppenvergleich | p-Wert (adj) | Signifikant? | Interpretation                               |
| ---------------- | ------------ | ------------ | -------------------------------------------- |
| A vs. B          | 1.000        | ‚ùå nein       | Keine signifikanten Unterschiede             |
| A vs. C          | 0.0238       | ‚úÖ ja         | Gruppe C hat signifikant h√∂here Scores als A |
| B vs. C          | 0.0238       | ‚úÖ ja         | Gruppe C hat signifikant h√∂here Scores als B |

* Gruppe C ist **signifikant besser** als die anderen beiden.
* Zwischen A und B gibt es **keinen Unterschied**.



#### Business-Interpretation

#### M√∂glicher Kontext:

Ein UX-Team testet drei Design-Varianten (A, B, C) einer Anwendung. Nutzende bewerten das Design mit dem SUS (Scorebereich 0‚Äì100).

#### Ergebnisse & Empfehlungen:

| Erkenntnis                          | Auswirkung                                                                                     |
| ----------------------------------- | ---------------------------------------------------------------------------------------------- |
| ‚úÖ Gruppe C hebt sich signifikant ab | Design C hat **nachweislich h√∂here UX-Werte** ‚Äì sollte bevorzugt oder weiter optimiert werden. |
| ‚ùå A vs. B kein Unterschied          | Design A und B sind **gleichwertig** ‚Äì Redundanzen k√∂nnen gepr√ºft oder reduziert werden.       |
| üìä Grosser Effekt gesamt (Œ∑¬≤ = 0.55) | Der Unterschied ist nicht nur statistisch, sondern **auch praktisch relevant**.                |


#### üìå Fazit

| Massnahme                                           | Begr√ºndung                                        |
| -------------------------------------------------- | ------------------------------------------------- |
| ‚úÖ **Design C priorisieren**                        | Signifikant und praktisch besser                  |
| üîç A und B zusammenf√ºhren oder A/B-Test einstellen | Kein Unterschied ‚Üí Ressourcen sparen              |
| üß™ Qualitative Forschung zu Design C durchf√ºhren   | Verstehen, **was genau** zu der besseren UX f√ºhrt |


---

‚û°Ô∏è **Tipp**: F√ºr eine Bayes‚Äôsche Alternative zum Kruskal-Wallis-Test verwende eine Bayes‚Äôsche ANOVA (siehe `bayesian_anova.ipynb`).