## ANOVA / Varianzanalyse

In [None]:
import plotly.express as px
import scipy.stats as st
import statsmodels.stats.multicomp as mc

In [None]:
# Der heutige Datensatz:
tips = px.data.tips()
tips["TipRatio"] = tips["tip"]/tips["total_bill"] * 100
tips.head()

### Einfaktorielle Varianzanalyse
Am Beispiel Tip per Total_Bill aufgeteilt in size

In [None]:
# Die wichtigen rauspicken:
tips['size'].value_counts()

In [None]:
# Standardabweichungen sind relativ ähnlich:
tips.groupby('size')['total_bill'].describe()

In [None]:
# Varianzen sind relativ ähnlich:
subframe = tips[tips['size'].isin([2, 3, 4])]
px.box(
    subframe,
    x='size',
    y='total_bill',
    width=750,
)

In [None]:
# Unimodale Verteilungen, die rechtsschief sind:
px.histogram(
    subframe,
    x='total_bill',
    color='size',
    barmode='group',
    width=800,
    height=450
)

In [None]:
two_persons = tips["total_bill"][tips["size"] == 2]
three_persons = tips["total_bill"][tips["size"] == 3]
four_persons = tips["total_bill"][tips["size"] == 4]

In [None]:
result = st.f_oneway(
    two_persons,
    three_persons,
    four_persons,
)

In [None]:
# Enthält: F-Wert und korrespondierenden p-Wert:
result

In [None]:
# Was sagt uns ein solcher p-Wert?
result.pvalue

### Post-Hoc-Tests

In [None]:
comp = mc.MultiComparison(subframe["total_bill"], subframe["size"])
post_hoc_res = comp.tukeyhsd()
post_hoc_res.summary()

In [None]:
# Grafische Darstellung
post_hoc_res.plot_simultaneous(
    ylabel= "Table size",
    xlabel= "Score Difference Total Bill",
)

### Übungsaufgabe

Weiter oben im Skript haben wir TipRatio als das Verhältnis von Total Bill und Tip erstellt. Führe eine vollständige Varianzanalyse (5 Schritte) mit dieser Variablen durch und prüfe auf Unterschiede in den Tagen ("day")

In [None]:
day_groups = [tips['tip'][tips['day'] == day] for day in tips['day'].unique()]
st.f_oneway(*day_groups)