# Varianz-Analyse

## Beispiel: Reissfestigkeit von Papier

### Paarweise t-Tests

In [None]:
from pandas import DataFrame
import scipy.stats as st
import numpy as np

rf = DataFrame({
    "HC": np.repeat(["05%", "10%", "15%", "20%"], [6, 6, 6, 6]),
    "Strength":[7, 8, 15, 11, 9, 10, 12, 17, 13, 18, 19, 15, 14, 18, 19, 17, 16, 18, 19, 25, 22, 23, 18, 20]
})
print(rf)
per5 = rf.loc[rf["HC"]=="05%", "Strength"]
per10 = rf.loc[rf["HC"]=="10%", "Strength"]
per15 = rf.loc[rf["HC"]=="15%", "Strength"]
per20 = rf.loc[rf["HC"]=="20%", "Strength"]

In [None]:
st.ttest_ind(per10,per20)
print(st.ttest_ind(per10,per20))

### Stripcharts

In [None]:
%matplotlib inline
from pandas import DataFrame
import pandas as pd
import numpy as np
import scipy.stats as st
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
from statsmodels.stats.outliers_influence import summary_table
import matplotlib.pyplot as plt
from scipy import stats

rf.plot(kind="scatter", x="HC", y="Strength")

plt.xlabel("Hartholzkonzentration")
plt.ylabel("Reissfestigkeit")

plt.show()

### Boxplots

In [None]:
rf.boxplot(column="Strength",by="HC",grid=False)

plt.xlabel("Hartholzkonzentration")
plt.ylabel("Reissfestigkeit")

plt.show()

## Koeffizienten des Gruppenmittelmodells

In [None]:
fit = ols("Strength~HC",data=rf).fit()
fit.summary()

In [None]:
print(fit.params)

## Vertrauensintervalle

In [None]:
fit_pred = fit.get_prediction()
print(fit_pred.conf_int())

## Beispiel: Meat

### Stripcharts

In [None]:
%matplotlib inline
from pandas import DataFrame
import pandas as pd
import numpy as np
import scipy.stats as st
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
from statsmodels.stats.outliers_influence import summary_table
import matplotlib.pyplot as plt
from scipy import stats

meat = DataFrame({
    "Treatment": np.repeat(["Kommerziell","Vakuum","Gemischt","CO2"], [3, 3, 3, 3]),
    "steak_id":[7.66, 6.98, 7.80, 5.26, 5.44, 5.80, 7.41, 7.33, 7.04, 3.51, 2.91, 3.66]
})
print(meat)

In [None]:
meat.plot(kind="scatter", x="Treatment", y="steak_id")

plt.xlabel("Verpackungsmethode")
plt.ylabel("Logarithmus Bakterienzahl")

plt.show()

## Boxplots

In [None]:
meat.boxplot(column="steak_id",by="Treatment",grid=False)

plt.xlabel("Verpackungsmethode")
plt.ylabel("Logarithmus Bakterienzahl")

plt.show()

## Paarweise t-Tests

In [None]:
kommerziell = meat.loc[meat["Treatment"]=="Kommerziell", "steak_id"]
print(kommerziell)
vakuum = meat.loc[meat["Treatment"]=="Vakuum", "steak_id"]
print(vakuum)
print(st.ttest_ind(kommerziell, vakuum))

## Gruppenmittelmodell : Summary

In [None]:
fit = ols("steak_id~Treatment",data=meat).fit()
fit.summary()

## Gruppenmittelmodell : Parameterwerte

In [None]:
print(fit.params)

Die Parametrisierung wurde so gewählt, dass $\mu=\mu_1=3.36$, d.h. 
$\tau_1=0$.
Die behandlungsspezifischen Abweichungen sind $\tau_2=3.90$, 
$\tau_3=4.12$ und $\tau_4=2.14$. D.h. $\mu_2=\mu +\tau_2 = 3.36+3.90$.


## Vertrauensintervalle für Gruppenmittelwerte

In [None]:
fit_pred = fit.get_prediction()
print(fit_pred.conf_int())

Python gibt hier direkt die Vertrauensintervalle der Gruppenmittelwerte $\mu_i$ an und nicht die Vertrauensintervalle der behandlungsspezifischen Abweichungen.

# Anova Tabelle

In [None]:
fit = ols("steak_id~Treatment",data=meat).fit()
anova_lm(fit)
print(anova_lm(fit))

Der $P$-Wert von  $1\cdot 10^{-6}$ besagt, dass ein Effekt von unterschiedlichen 
Verpackungsmethoden signifikant auf dem 5% Niveau nachgewiesen 
werden kann. Die Gruppenmittelwerte unterscheiden sich also signifikant. 