# ANOVA

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
import statsmodels.stats as sm_stats
from scipy import stats
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm

from statsmodels.stats.multicomp import MultiComparison, pairwise_tukeyhsd

#rozkład $F$-Snedecora
Zmienna losowa $X$ ma rozkład $F$-Snedecora z parametrami $m,n\in\mathbb{N_+}$, jeżeli jej gęstość $f$~jest postaci

\begin{equation*}
      f(x)=
    \begin{cases}
    \frac{\Gamma(\frac{n+m}{2})}{\Gamma(\frac{n}{2})\Gamma(\frac{m}{2})}\Big(\frac{m}{n}\Big)^{\frac{m}{2}}x^{\frac{n}{2}-1}\Big(x+\frac{m}{n}\Big)^{-\frac{n+m}{2}} \quad &\text{dla} \quad x\geq0\\
    0 \quad &\text{dla} \quad x< 0,
    \end{cases}
\end{equation*}

Wartość oczekiwana i wariancja dane są wzorami
\begin{equation*}
    \mathbb{E}X = \frac{m}{m-2}, \quad \text{Var}(X) = \frac{2m^2(n+m-2)}{n(m-2)(m-4)}.
\end{equation*}

# Zadanie wstępne

1. Zdefiniuj zmienną losową dla rozkładu $F$-Snedecora.
2. Narysuj gęstość dla kilku wybranych stopni swobody. Zwróć uwagę na dziedzinę gęstości.
3. Narysuj dystrybuantę dla kilku wybranych stopni swobody.
4. Wyznacz podstawowe charakterystyki rozkładu: średnia, wariancja, odchylenie standardowe.
5. Wylosuj $n$ obserwacji z zdefiniowanego rozkładu.
6. Narysujmy histogram dla wylosowanej powyżej próbki.
7. Sprawdź, czy zachodzi własność: jeśli $X$ pochodzi z rozkładu chi-kwadrat o $m$ stopniach swobody i $Y$ również pochodzi z rozkładu chi kwadrat ale o $n$ stopniach swobody, oraz zmienne $X$ i $Y$ są niezależne, to zmienna 
$$
    Z = \frac{\frac{X}{m}}{\frac{Y}{n}}
$$
ma rozkład $F$-Snedecora o $(m,n)$ stopniach swobody.
8. Niech $X_1, \ldots, X_{n_1}$ będzie próbą prostą z rozkładu $\mathcal{N}(\mu_1, \sigma)$ oraz niech $Y_1, \ldots, Y_{n_2}$ będzie próbą prostą z rozkładu $\mathcal{N}(\mu_2, \sigma)$. Załóżmy ponadto, że obie próbki są niezależne. Niech $S_1^2$ i $S_2^2$ oznaczają, odpowiednio, wariancje próbkowe z pierwszej i drugiej próbki. Pokazać, że wówczas iloraz wariancji próbkowych 
$$
\frac{S_1^2}{S_2^2}
$$
ma rozkład $F$-Snedecora o $(n_1-1, n_2-1)$ stopniach swobody.

In [None]:
#1. Definiujemy kilka zmiennych z rozkładu F-Snedecora
f710 = stats.f(dfn=7, dfd=10)
f25 = stats.f(dfn=2, dfd=5)
f75 = stats.f(dfn=7, dfd=5)

In [None]:
# #2.
x_value = np.linspace(-5, 5, 100)
plt.plot(x_value, f710.pdf(x_value))
plt.plot(x_value, f25.pdf(x_value))
plt.plot(x_value, f75.pdf(x_value))
plt.legend(['m=7,n=10', 'm=2,n=5', 'm=7,n=5'])
#stopnie swobody wpływają na przesuwanie się garbu i jego wysokość
#nośnik od 0 do nieskończoności

In [None]:
#3. dystrybuanty
x_value = np.linspace(-5, 5, 100)
plt.plot(x_value, f710.cdf(x_value))
plt.plot(x_value, f25.cdf(x_value))
plt.plot(x_value, f75.cdf(x_value))
plt.legend(['m=7,n=10', 'm=2,n=5', 'm=7,n=5'])

In [None]:
#4. #średnia to n/(n-2)
size = 1000000
#przybliżenie z próbki
print(np.mean(f710.rvs(size)))
#wartość teoretyczna
print(10/(10-2))
#przybliżenie z próbki
print(np.mean(f25.rvs(size)))
#wartość teoretyczna
print(5/(5-2))
#przybliżenie z próbki
print(np.mean(f75.rvs(size)))
#wartość teoretyczna
print(5/(5-2))

In [None]:
#4. #wariancja to 2*n**2(m+n-2)/(m(n-2)**2(n-4)) dla n>4
size = 1000000
#przybliżenie z próbki
print(np.var(f710.rvs(size)))
#wartość teoretyczna
print(2*10**2*(7+10-2)/(7*(10-2)**2*(10-4)))
#przybliżenie z próbki
print(np.var(f25.rvs(size)))
#wartość teoretyczna
print(2*5**2*(2+5-2)/(2*(5-2)**2*(5-4)))
#przybliżenie z próbki
print(np.var(f75.rvs(size)))
#wartość teoretyczna
print(2*5**2*(7+5-2)/(7*(5-2)**2*(5-4)))

In [None]:
#odchylenie to pierwiastek z wariancji

In [None]:
#5 i 6
rs710 = f710.rvs(size)
plt.hist(rs710,bins =200, density=True)
x_value = np.linspace(-1, 10, 1000)
plt.plot(x_value, f710.pdf(x_value))
plt.show()

rs25 = f25.rvs(size)
plt.hist(rs25,bins =200, density=True)
x_value = np.linspace(-1, 10, 1000)
plt.plot(x_value, f25.pdf(x_value))
plt.show()

rs75 = f75.rvs(size)
plt.hist(rs75,bins =200, density=True)
x_value = np.linspace(-1, 10, 1000)
plt.plot(x_value, f75.pdf(x_value))
plt.show()

In [None]:
# 7. sprawdzamy symulacyjnie
N = 10000
m = 100
X = stats.chi2.rvs(size=N, df=m)
n = 120
Y = stats.chi2.rvs(size=N, df=n)

x_value = np.linspace(-1, 10, 1000)
Z = X * n / Y / m
plt.hist(Z, density=True)
plt.plot(x_value, stats.f.pdf(x_value, m, n))

In [None]:
# 8. udowadniamy symulacyjnie
N = 1000
n1 = 100
n2 = 120
sigma = 1
mu1 = -2
mu2 = 3
Z = np.zeros(N)

for i in range(N):
    X = stats.norm.rvs(size=n1, loc=mu1, scale=sigma)
    Y = stats.norm.rvs(size=n2, loc=mu2, scale=sigma)
    Z[i] = X.var(ddof=1) / Y.var(ddof=1)
plt.hist(Z, density=True)
plt.plot(x_value, stats.f.pdf(x_value, n1-1, n2-1))

# Zadanie 1
Wykonano po cztery niezależne pomiary wytrzymałości na ́sciskanie trzech rodzajów betonu. Otrzymano następujące wyniki (w kG/cm2):

|    |  | | |  |
|:---:|:---:|:---:|:---:|:---:|
|  I  | 204 | 200 | 198 | 204 |
|  II | 197 | 205 | 213 | 209 |
| III | 190 | 208 | 202 | 210 |

Stwierdź, czy badane gatunki betonu różnią się istotnie pod względem ́sredniej wytrzymałości na ́sciskanie. Przyjmij poziom istotności 0.05.

Zanim przystapimy do testu $F$ powinnismy sprawdzic, czy sa spełnione założenia pozwalajace posłuzyc sie wspomnianą metodą:

1.  niezależność obserwacji,
2.  normalność  rozkładów  w  każdej  z  podpopulacji  wyznaczonych  przez  poziomy czynników,
3.  jednorodność wariancji podpopulacji wyznaczonych przez poziomy czynników.

In [None]:
group1 = np.array([204, 200, 198, 204])
group2 = np.array([197, 205, 213, 209])
group3 = np.array([190, 208, 202, 210])

## Jednorodność wariancji

Testujemy hipotezę zerową
$$
    H_0: \sigma_1^2 = \sigma^2_2 = \ldots = \sigma_r^2
$$

Do weryfikacji tej hipotezy możemy użyć testów:

1. [Bartlett's Test](https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.bartlett.html)
2. [Levene Test for Equality of Variances](https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.levene.html)


In [None]:
# stats.bartlett(group1,group2,group3)

In [None]:
# stats.levene(group1,group2,group3,center = 'mean')

### Zadanie 
Napisz funkcję, która dla $n$ wektorów wykona i wypisze wyniki testu Bartletta i Levene.

In [None]:
# def variance_test(*args):
#     d = {}
#     bartlett_test = stats.bartlett(*args)
#     d['bartlett_test'] = {'statistic': bartlett_test.statistic, 'pvalue': bartlett_test.pvalue}
#     levene_test = stats.levene(*args, center='mean')
#     d['levene_test'] = {'statistic': levene_test.statistic, 'pvalue': levene_test.pvalue}
#     return pd.DataFrame(d)

In [None]:
# variance_test(group1,group2,group3)

In [None]:
# #podobnie zrobimy dla testów normalności
# def normal_tests(x):
#     tests = ['Shapiro-Wilk Test', "Jarque–Bera Test", 
#              "Kolmogorov–Smirnov Test"]
#     shapiro = stats.shapiro(x)
#     jarque_bera = stats.jarque_bera(x)
#     x_stand = (x - np.mean(x)) / np.std(x, ddof=1)
#     ks = stats.kstest(x_stand, 'norm')
    
#     statistics = np.round([shapiro[0], jarque_bera[0], ks.statistic], 2)
#     pvalues = np.round([shapiro[1], jarque_bera[1], ks.pvalue], 5)
    
#     return pd.DataFrame({
#         'test': tests,
#         'statistic': statistics,
#         'pvalue': pvalues
#     })

#Normalność rozkładów
Testujemy hipotezę zerową
$$
    H_0: X_i\sim N(\mu_i,\sigma_i)
$$
Dla każdej grupy $i$.
Do weryfikacji tej hipotezy możemy użyć testów:

1. [Shapiro-Wilk Test](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.shapiro.html)
2. [Jarque-Bera Test](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.jarque_bera.html)
3. [Kolmogorov-Smirnov Test](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.kstest.html)

In [None]:
# print(normal_tests(group1))
# print(normal_tests(group2))
# print(normal_tests(group3))

# ANOVA

Testujemy hipotezę zerową
$$
H_0: \mu_1 = \mu_2 = \mu_3
$$ 
mówiącą, iż - ́sredniorzecz biorąc – badane gatunki betonu nie różnią się istotnie pod względem wytrzymałości na ́ściskanie, wobec hipotezy alternatywnej orzekającej, iż te gatunki różnią się wytrzymałością.

Oznaczmy (w naszym zadaniu $r=3,n=4$)





*   Średnią ze wszystkich obserwacji
    \begin{equation*}
        \overline{\overline{Y}} = \frac{1}{nr}\sum_{i=1}^r\sum_{j=1}^n Y_{ij},
    \end{equation*}
*   Średnią na $i$-tym poziomie, $1 \leq i \leq n$
    \begin{equation*}
        \overline{Y}_i = \frac{1}{n}\sum_{j=1}^n Y_{ij},
    \end{equation*}
*       Zmienność całkowitą w eksperymencie
    \begin{equation*}
        \text{SST} = \sum_{i=1}^r\sum_{j=1}^n (Y_{ij} -  \overline{\overline{Y}})^2,
    \end{equation*}
*   zmienność między poziomami
    \begin{equation*}
        \text{SSA} = n\sum_{i=1}^r(\overline{Y}_i - \overline{\overline{Y}})^2,
\end{equation*}
*  zmienność na danym poziomie
    \begin{equation*}
        \text{SSE} = \sum_{i=1}^r\sum_{j=1}(Y_{ij} - \overline{Y}_i)^2.
    \end{equation*}

    TW.  $\text{SST}=\text{SSA}+\text{SSE}$


Statystyka testowa jest postaci:
    \begin{equation*}
        F = \frac{\frac{\text{SSA}}{r-1}}{\frac{SSE}{r(n-1)}}=\frac{MSA}{MSE}.
    \end{equation*}

Obszar krytyczny testu $F$ jest postaci
\begin{equation*}
    [F^{(r-1)(r(n-1))}_{1-\alpha}, +\infty).
\end{equation*}

In [None]:
# stats.f_oneway(group1,group2,group3)

In [None]:
# #inny sposób
# values = np.concatenate([group1,group2,group3])
# n = len(group1)
# types = np.concatenate([['I']*n,['II']*n,['III']*n])

In [None]:
# df = pd.DataFrame({'type': types,'value': values})
# df.head()

In [None]:
# model = ols('value~C(type)',df).fit()
# anv = anova_lm(model)
# anv

# *Zadanie 1b
Zaimplementuj swoją wersję testu $F$.

In [None]:
# def anova_oneway(df):
#     levels = np.unique(df.type)
#     groups = []
#     mean_all = np.mean(df.value)
#     SST = np.sum((df.value-mean_all)**2)
#     SSA = 0
#     for i in np.unique(df.type):
#       group = df.value[df.type==i]
#       mean_group = np.mean(group)
#       SSA_part = (mean_group-mean_all)**2
#       SSA = SSA+SSA_part
    
#     r = len(np.unique(df.type))
#     #dla równolicznych grup
#     n = df.shape[0]/r
    
#     SSA = n*SSA
#     SSE = SST-SSA

#     Fstat = (SSA/(r-1))/(SSE/(r*(n-1)))
#     frand = stats.f(dfn = r-1,dfd = r*(n-1))
#     pval = 1-frand.cdf(Fstat)
#     return(np.array([SSA,SSE,Fstat,pval]))
    

In [None]:
# anova_oneway(df)

# Zadanie 2
Wapń jest niezbędnym minerałem, który reguluje pracę serca, jest ważny dla krzepnięcia krwi i budowy zdrowych kości. Narodowa Fundacja Osteoporozy zaleca dzienne spożycie wapnia w ilości 1000-1200 mg / dzień dla dorosłych mężczyzn i kobiet. Podczas gdy wapń jest zawarty w niektórych produktach spożywczych, większość dorosłych nie ma wystarczającej ilości wapnia w swojej diecie i przyjmuje suplementy. Niestety niektóre suplementy mają skutki uboczne, takie jak zaburzenia żołądkowe, co utrudnia ich regularne przyjmowanie przez niektórych pacjentów.

Badanie ma na celu sprawdzenie, czy istnieje różnica w średnim dziennym spożyciu wapnia u osób dorosłych z prawidłową gęstością kości, osób dorosłych z osteopenią (mała gęstość kości, która może prowadzić do osteoporozy) i osób dorosłych z osteoporozą. Dorośli w wieku 60 lat z prawidłową gęstością kości, osteopenią i osteoporozą są losowo wybierani z rejestrów szpitalnych i zapraszani do udziału w badaniu. Dzienne spożycie wapnia przez każdego uczestnika jest mierzone na podstawie zgłoszonego spożycia żywności i suplementów. Dane są pokazane poniżej.

| Prawidłowa gęstość kości | Osteopenia | Osteoporoza |
|:------------------------:|:----------:|:-----------:|
|           1200           |    1000    |     890     |
|           1000           |    1100    |     650     |
|            980           |     700    |     1100    |
|            900           |     800    |     900     |
|            750           |     500    |     400     |
|            800           |     700    |     350     |

Czy istnieje statystycznie istotna różnica w średnim spożyciu wapnia u pacjentów z prawidłową gęstością kości w porównaniu do pacjentów z osteopenią i osteoporozą? Przyjmij poziom istotności 0.05.

In [None]:
#group1 = [1200, 1000, 980, 900, 750, 800]
#group2 = [1000, 1100, 700, 800, 500, 700]
#group3 = [890, 650, 1100, 900, 400, 350]

## post-hoc - porówania wielokrotne
Testujemy
\begin{equation*}
    \begin{split}
        H_{0, ik}&: \mu_i = \mu_k, \\
        H_{1, ik}&: \mu_i \neq \mu_k
    \end{split}
\end{equation*}
dla wszystkich par $i, k=1, \ldots, r, i < k$.

Hipotezę zerową odrzucamy, gdy $|\overline{Y}_i - \overline{Y}_k|$ jest ,,za duża''.

### Metoda Tukeya
Odrzucamy hipotezę zerową $H_{0, ik}$, gdy
\begin{equation*}
    |\overline{Y}_i - \overline{Y}_k| \geq q_{1-\alpha}^{(r, r(n-1))}\sqrt{\frac{\text{MSE}}{n}},
\end{equation*}
gdzie $q_{1-\alpha}^{(r, r(n-1)}$ jest kwantylem studentyzowanego rozkładu rozstępu.

# Zadanie 3
Wysunięto przypuszczenie, że wytrzymałość toreb papierowych zależy od stężenia twardego drewna w ścierze drzewnym, z którego owe torby są wytwarzane. W praktyce stosuje się stężenia od 5% do 20%. Dotychczasowe badania wykazały, że rozkład wytrzymałości toreb jest normalny, przy czym obserwowana zmienność nie zależała od poziomu stężenia twardego drewna w ścierze drzewnym. Poniższa tabela zawiera wyniki pomiarów wytrzymałości na rozciąganie (w psi) otrzymane podczas badań laboratoryjnych 24 toreb papierowych. Zbadać, czy wytrzymałość toreb zależy faktycznie od poziomu stężenia twardego drewna w ścierze drzewnym.

|  Stężenie ścieru drzewnego |    |    |    |    |    |    |
|:--------------------------:|:--:|:--:|:--:|:--:|:--:|:--:|
|             5%             |  7 |  8 | 15 | 11 |  9 | 10 |
|             10%            | 12 | 17 | 13 | 18 | 19 | 15 |
|             15%            | 14 | 18 | 19 | 17 | 16 | 18 |
|             20%            | 19 | 25 | 22 | 23 | 18 | 20 |

In [None]:
# group1 = [7,8,15,11,9,10]
# group2 = [12,17,13,18,19,15]
# group3 = [14,18,19,17,16,18]
# group4 = [19,25,22,23,18,20]

In [None]:
# values = np.concatenate([group1,group2,group3,group4])
# n = len(group1)
# types = np.concatenate([['5%']*n,['10%']*n,['15%']*n,['20%']*n])
# df = pd.DataFrame({'type': types,'value': values})
# df.head()

In [None]:
# multicomparison = MultiComparison(data = df.value,groups = df.type)
# multicomparison

In [None]:
# tukey = multicomparison.tukeyhsd()
# tukey.summary()

In [None]:
# tukey2 = pairwise_tukeyhsd(endog = df.value,groups = df.type)
# tukey2.summary()

In [None]:
# tukey2.plot_simultaneous()
# plt.show()

# Zadanie 4
W pliku `zarobki.csv` zamieszczono historyczne dane dotyczące wysokosci miesięcznych zarobków wybranych losowo osób w czterech miastach: w Warszawie, Krakowie, Wrocławiu i Katowicach. Zbadaj, czy wysokość miesięcznych zarobków tych miastach różni się istotnie (przyjmij poziom istotności 0.05).

In [None]:
# zarobki = pd.read_csv('zarobki.csv',sep = ";")
# zarobki.head()

In [None]:
# zarobki_warszawa = zarobki.zarobki[zarobki.miasto=='Warszawa']
# zarobki_krakow = zarobki.zarobki[zarobki.miasto=='Krakow']
# zarobki_wroclaw = zarobki.zarobki[zarobki.miasto=='Wroclaw']
# zarobki_katowice = zarobki.zarobki[zarobki.miasto=='Katowice']

# Zadanie 5
W celu porównania trzech ́srodków antykorozyjnych pobrano po 10 próbek losowych drutu zabezpieczanego każdym z tych ́srodków i zmierzono głębokość zaistniałej korozji (razy 10−3mm). Wyniki pomiarów przestawia poniższa tabelka:

| Środek A | Środek B | Środek C |
|:--------:|:--------:|:--------:|
|   98.5   |   100.2  |   56.7   |
|   98.5   |   99.2   |   82.0   |
|   98.5   |   99.9   |   67.8   |
|   97.5   |   97.8   |   58.3   |
|   99.3   |   99.8   |   61.2   |
|   102.0  |   100.5  |   67.8   |
|   101.8  |   99.8   |   117.4  |
|   98.3   |   99.0   |   103.4  |
|   102.0  |   101.1  |   43.8   |
|   101.2  |   100.8  |   86.1   |

Czy na podstawie tych  danym można stwierdzić, ̇ze ́srodki te różnią się istotnie podwzględem jakości tworzonego przez nie zabezpieczenia antykorozyjnego?

In [None]:
# group1 = [98.5,98.5,98.5,97.5,99.3,102,101.8,98.3,102,101.2]
# group2 = [100.2,99.2,99.9,97.8,99.8,100.5,99.8,99,101.1,100.8]
# group3 = [56.7,82,67.8,58.3,61.2,67.8,117.4,103.4,43.8,86.1]

#Dwuczynnikowa anova
Model:
\begin{equation*}
        Y_{ijk} = \mu + \alpha_i + \beta_j + \gamma_{ij} + \varepsilon_{ijk},
\end{equation*}
Testujemy hipotezy
\begin{equation*}
    \begin{split}
        H_{0,1}&: \alpha_1 = \alpha_2 = \ldots = \alpha_r=0 \\
        H_{1, 1}&: \neg H_{0, 1}, \\
                & \\
        H_{0,2}&: \beta_1 = \beta_2 = \ldots = \beta_s=0 \\
        H_{1,2}&: \neg H_{0,2},\\
                & \\
        H_{0,3}&: \gamma_{11} =  \ldots = \gamma_{rs}=0 \\
        H_{1,3}&: \neg H_{0,3}
    \end{split}
\end{equation*}

| Źródło zmienności | Suma kwadratów ochyleń | Stopnie swobody| Średni kwadrat ochyleń | Statystyki testowe |
|:--------:|:--------:|:--------:|:--------:|:--------:|
| Czynnik A | $SSA$| r − 1| MSA = $\frac{SSA}{r−1}$ | F1 = $\frac{MSA}{MSE}$ |
| Czynnik B | $SSB$| r − 1| MSB = $\frac{SSB}{s−1}$ | F1 = $\frac{MSB}{MSE}$ |
| Interakcje SSAB | $SSAB$| (r − 1)(s − 1)| MSAB = $\frac{SSAB}{(r−1)(s−1)}$ | F1 = $\frac{MSAB}{MSE}$ |
| Błąd losowy | $SSE$| rs(n − 1)| MSE = $\frac{SSE}{rs(n − 1)}$ |  |
| Ogółem | $SST$| rsn − 1|  |  |

# Zadanie 6
Przeprowadzono następujące doświadczenie: 18 mężczyzn i 18 kobiet rozmieszczono losowo w 9 pokojach w ten sposób, ̇ze w każdym pokoju były po dwie osoby tej samej płci. W pokojach tych utrzymywano stałą temperaturę: 18, 21 albo 24 stopnie Celsjusza (przydział temperatur poszczególnym pokojom był także losowy). Po upływie trzech godzin oceniano samopoczucie każdej z badanych osób (zastosowano ocenę punktową, w której 1 = zbyt zimno, 8 = idealna temperatura, 15 = zbyt ciepło).

|    |         M         |          K         |
|:--:|:-----------------:|:------------------:|
| 18 |  5, 4, 5, 4, 4, 2 |  1, 2, 5, 5, 1, 3  |
| 21 |  8, 8, 6, 3, 5, 7 |  10, 7, 8, 8, 7, 8 |
| 24 | 12, 8, 8, 7, 6, 6 | 11, 13, 8, 8, 6, 7 |

Zbadaj wpływ, jaki na samopoczucie osób wywiera temperatura panująca w danym pokoju. Czy ocena samopoczucia zależy od płci? Czy występują ̨tu istotne interakcje między badanymi czynnikami (tzn. temperaturą i płcią)?

In [None]:
# grupa1 = np.array([5, 4, 5, 4, 4, 2])
# grupa2 = np.array([8, 8, 6, 3, 5, 7])
# grupa3 = np.array([12, 8, 8, 7, 6, 6])
# grupa4 = np.array([1, 2, 5, 5, 1, 3])
# grupa5 = np.array([10, 7, 8, 8, 7, 8])
# grupa6 = np.array([11, 13, 8, 8, 6, 7])

In [None]:
# print(variance_test(grupa1,grupa2,grupa3, grupa4, grupa5, grupa6))
# print(normal_tests(grupa1))
# print(normal_tests(grupa2))
# print(normal_tests(grupa3))
# print(normal_tests(grupa4))
# print(normal_tests(grupa5))
# print(normal_tests(grupa6))

In [None]:
# values = np.concatenate([grupa1,grupa2,grupa3,grupa4,grupa5,grupa6])
# n = len(grupa1)
# group1 = np.concatenate([['M']*(3*n),['K']*(3*n)])
# group2 = np.concatenate([['18']*n,['21']*n,['24']*n,['18']*n,['21']*n,['24']*n])
# df = pd.DataFrame({'value': values,'group1': group1,'group2': group2,})
# df.head()

In [None]:
# formula = 'value~C(group1)+C(group2)+C(group1):C(group2)'
# model = ols(formula,df).fit()
# anv = anova_lm(model)
# print(anv)

In [None]:
# tukey2 = pairwise_tukeyhsd(endog = df.value,groups = df.group2)
# tukey2.summary()

In [None]:
# tukey2.plot_simultaneous()
# plt.show()

# Zadanie 7
W  pewnych  zakładach  lotniczych  stosuje  się  dwie  metody  nakładania farby podkładowej na częsci aluminiowe: malowanie zanurzeniowe i natryskowe. Czyni się  tak  w  celu  zwiększenia  przylegania  właściwej  farby  nawierzchniowej,  którą  później są malowane owe części. We wspomnianych zakładach stosowano do tej pory trzy rodzaje farb podkładowych. Inżynier technolog, odpowiedzialny za ten etap produkcji, postanowił zbadać, czy rodzaj farby podkładowej oraz sposób jej nakładania na detal mają istotny wpływ na siłę przylegania właściwej farby nawierzchniowej. W tym celu przeprowadzono eksperyment, w którym zmierzono siłę przylegania farby nawierzchniowej do kilku detali malowanych najpierw różnymi farbami podkładowymi, nanoszonymi obiema metodami. Wyniki pomiarów zamieszczono w poniższej tabeli.

| Rodzaj farby |  Malowanie zanurzeniowe |  Malowanie natryskowe |
|:------------:|:-----------------------:|:---------------------:|
|       A      |      4.0, 4.5, 4.3      |     5.4, 4.9, 5.6     |
|       B      |      5.6, 4.9, 5.4      |     5.8, 6.1, 6.3     |
|       C      |      3.8, 3.7, 3.9      |     6.5, 6.0, 5.0     |

Jakie wnioski powinien wyciągnąć inżynier na podstawie powyższych wyników?

In [None]:
# grupa1 = np.array([4.0, 4.5, 4.3])
# grupa2 = np.array([5.6, 4.9, 5.4])
# grupa3 = np.array([3.8, 3.7, 3.9])
# grupa4 = np.array([5.4, 4.9, 5.6])
# grupa5 = np.array([5.8, 6.1, 6.3])
# grupa6 = np.array([6.5, 6.0, 5.0])

# Zadanie 8
W celu zbadania wpływu czterech dawek nawożenia azotowego (w ilościach 0, 40, 80 i 120 kg/ha) na wysokość plonów lucerny przy trzech sposobach siewu (siew czysty C oraz dwa rodzaje wsiewu M i P w jęczmień jary) założono doświadczenie w czterech powtórzeniach. Dla każdej kombinacji nawożenia ze sposobem siewu zmierzono plon zielonej masy (w kg z poletka). W pierwszym pokosie uzyskano następujące obserwacje:

|   |            0            |           40           |           80           |           120          |
|:-:|:-----------------------:|:----------------------:|:----------------------:|:----------------------:|
| C | 33.2, 36.2, 44.2, 51.0  | 42.2, 41.4, 50.6, 45.2 | 50.2, 53.0, 52.6, 45.0 | 46.2, 52.4, 49.0, 43.6 |
| M |  18.6, 13.0, 14.6, 18.8 | 18.0, 20.0, 14.2, 19.1 | 24.2, 21.6, 16.4, 19.0 | 34.2, 17.2, 15.5, 22.2 |
| P |  20.4, 14.4, 11.0, 22.6 | 21.9, 42.0, 16.2, 25.6 | 18.2, 21.0, 27.3, 27.6 | 16.4, 15.0, 21.6, 27.8 |

Ustal, który z badanych czynników miał istotny wpływ na wysokość plonów masy zielonej.

In [None]:
# grupa1 = [33.2, 36.2, 44.2, 51.0]
# grupa2 = [18.6, 13.0, 14.6, 18.8]
# grupa3 = [20.4, 14.4, 11.0, 22.6]
# grupa4 = [42.2, 41.4, 50.6, 45.2]
# grupa5 = [18.0, 20.0, 14.2, 19.1]
# grupa6 = [21.9, 42.0, 16.2, 25.6]
# grupa7 = [50.2, 53.0, 52.6, 45.0]
# grupa8 = [24.2, 21.6, 16.4, 19.0]
# grupa9 = [18.2, 21.0, 27.3, 27.6]
# grupa10 = [46.2, 52.4, 49.0, 43.6]
# grupa11 = [34.2, 17.2, 15.5, 22.2]
# grupa12 = [16.4, 15.0, 21.6, 27.8]