# Varianz-Analyse

## Beispiel: Reissfestigkeit von Papier

### Paarweise t-Tests

In [None]:
from pandas import DataFrame
import scipy.stats as st
import numpy as np
import seaborn as sns

rf = DataFrame({
"HC": np.repeat(["5%", "10%", "15%", "20%"], [6, 6, 6, 6]),
"Strength":[7, 8, 15, 11, 9, 10, 12, 17, 13, 18, 19, 15, 14, 18, 19, 17, 16, 18, 19, 25, 22, 23, 18, 20]
})
print(rf)
per5 = rf.loc[rf["HC"]=="5%", "Strength"]
per10 = rf.loc[rf["HC"]=="10%", "Strength"]
per15 = rf.loc[rf["HC"]=="15%", "Strength"]
per20 = rf.loc[rf["HC"]=="20%", "Strength"]

In [None]:
st.ttest_ind(per10,per20)
print(st.ttest_ind(per10,per20))

### Stripcharts

In [2]:
%matplotlib inline
from pandas import DataFrame
import pandas as pd
import numpy as np
import seaborn as sns
import scipy.stats as st
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
from statsmodels.stats.outliers_influence import summary_table
import matplotlib.pyplot as plt
from scipy import stats

sns.stripplot(x="HC", y="Strength", data=rf)

plt.xlabel("Hartholzkonzentration")
plt.ylabel("Reissfestigkeit")

plt.show()

AttributeError: module 'matplotlib.cm' has no attribute 'register_cmap'

### Boxplots

In [None]:
sns.boxplot(x="HC", y="Strength", data=rf)

plt.xlabel("Hartholzkonzentration")
plt.ylabel("Reissfestigkeit")

plt.show()

## Koeffizienten des Gruppenmittelmodells

In [None]:
rf = DataFrame({
"HC": np.repeat(["5%","10%","15%","20%"], [6, 6, 6, 6]),
"Strength":[7, 8, 15, 11, 9, 10, 12, 
            17, 13, 18, 19, 15, 14, 
            18, 19, 17, 16, 18, 19, 
            25, 22, 23, 18, 20]
})

fit = ols("Strength~HC",data=rf).fit()
fit.summary()
print(fit.summary())

In [None]:
fit = ols("Strength~HC",data=rf).fit()
print(fit.params)

## Vertrauensintervalle

In [None]:
fit = ols("Strength~HC",data=rf).fit()
fit_pred = fit.get_prediction()
print(fit_pred.conf_int())

## Beispiel: Meat

### Stripcharts

In [None]:
%matplotlib inline
from pandas import DataFrame
import pandas as pd
import numpy as np
import seaborn as sns
import scipy.stats as st
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
from statsmodels.stats.outliers_influence import summary_table
import matplotlib.pyplot as plt
from scipy import stats

meat = DataFrame({
"Treatment": np.repeat(["Kommerziell","Vakuum","Gemischt","CO2"], [3, 3, 3, 3]),
"steak_id":[7.66, 6.98, 7.80, 5.26, 5.44, 5.80, 7.41, 7.33, 7.04, 3.51, 2.91, 3.66]
})
print(meat)

In [None]:
sns.stripplot(x="Treatment", y="steak_id", data=meat)
plt.xlabel("Verpackungsmethode")
plt.ylabel("Logarithmus Bakterienzahl")

## Boxplots

In [None]:
sns.boxplot(x="Treatment", y="steak_id", data=meat)
plt.xlabel("Verpackungsmethode")
plt.ylabel("Logarithmus Bakterienzahl")

## Paarweise t-Tests

In [None]:
kommerziell = meat.loc[meat["Treatment"]=="Kommerziell", "steak_id"]
print(kommerziell)
vakuum = meat.loc[meat["Treatment"]=="Vakuum", "steak_id"]
print(vakuum)
print(st.ttest_ind(kommerziell, vakuum))

## Gruppenmittelmodell : Summary

In [None]:
meat = DataFrame({
"Treatment": np.repeat(["Kommerziell","Vakuum","Gemischt","CO2"], [3, 3, 3, 3]),
"steak_id":[7.66, 6.98, 7.80, 5.26, 5.44, 5.80, 7.41, 7.33, 7.04, 3.51, 2.91, 3.66]
})
print(meat)
fit = ols("steak_id~Treatment",data=meat).fit()

fit.summary()
print(fit.summary())

## Gruppenmittelmodell : Parameterwerte

In [None]:

meat = DataFrame({
"Treatment": np.repeat(["Kommerziell","Vakuum","Gemischt","CO2"], [3, 3, 3, 3]),
"steak_id":[7.66, 6.98, 7.80, 5.26, 5.44, 5.80, 7.41, 7.33, 7.04, 3.51, 2.91, 3.66]
})

fit = ols("steak_id~Treatment",data=meat).fit()

fit.params
print(fit.params)

Die Parametrisierung wurde so gewählt, dass $\mu=\mu_1=3.36$, d.h. 
$\tau_1=0$.
Die behandlungsspezifischen Abweichungen sind $\tau_2=3.90$, 
$\tau_3=4.12$ und $\tau_4=2.14$. D.h. $\mu_2=\mu +\tau_2 = 3.36+3.90$.


## Vertrauensintervalle für Gruppenmittelwerte

In [None]:
fit_pred = fit.get_prediction()
print(meat)
print(fit_pred.conf_int())

Python gibt hier direkt die Vertrauensintervalle der Gruppenmittelwerte $\mu_i$ an und nicht die Vertrauensintervalle der behandlungsspezifischen Abweichungen.

## Simulation F-Statistik


Die Verteilung der Teststatistik für das Beispiel Verpackung von Fleisch kann auch simuliert werden. Dazu wurde ein lineares Regressionsmodell angepasst. Unter der Nullhyothese müssten alle Beobachtungen normalverteilt sein mit Mittelwert gleich 3.3600 (Mittelwert der Anzahl Bakterien) und Standardabweichung 0.55 (Residual standard deviation im Describe-Output). 

In der Simulation werden pro Simulationsschritt 12 Zufallszahlen gemäss dieser Normalverteilung mit Erwartungswert $3.36$ und Standardabweichung $0.34$ gezogen. Anschliessend wird damit die Teststatistik berechnet, wobei die simulierten Zufallszahlen zufällig auf die 4 Behandlungsgruppen (Verpackungsarten) aufgeteilt werden.

In [None]:
from pandas import DataFrame
import pandas as pd
import numpy as np
import seaborn as sns
import scipy.stats as st
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
from statsmodels.graphics.factorplots import interaction_plot
from statsmodels.stats.outliers_influence import summary_table
import matplotlib.pyplot as plt


n = 12
g = 4
m = 3

Fstat = np.empty(1000)

for i in np.arange(1000):
    meat_sim = st.norm.rvs(size=n, loc=3.3600, scale=0.34)
    meat_mat = np.reshape(meat_sim,(-1,4))
    grand_mean = np.mean(meat_sim)
    group_mean = np.mean(meat_mat,axis=0)
    MSG = m*np.sum((group_mean-grand_mean)**2)/(g-1)
    MSE = np.sum(np.sum((meat_mat-group_mean)**2,axis=0))/(n-g)
    Fstat[i] = MSG/MSE
   
 
sns.distplot(Fstat,kde=False, norm_hist=True, hist_kws=dict(edgecolor="black", linewidth=2))
x = np.linspace(0.01,4,num=500)
y = st.f.pdf(x=x, dfn=3, dfd=8)

plt.plot(x,y) 

plt.xlabel("Fstat")

plt.show()

# Anova Tabelle

In [None]:
fit = ols("steak_id~Treatment",data=meat).fit()
anova_lm(fit)
print(anova_lm(fit))

Der $P$-Wert von  $1\cdot 10^{-6}$ besagt, dass ein Effekt von unterschiedlichen 
Verpackungsmethoden signifikant auf dem 5% Niveau nachgewiesen 
werden kann. Die Gruppenmittelwerte unterscheiden sich also signifikant. 