# Решение заданий к уроку 8

__Задание 1__

Объясняемая переменная `y` зависит от двух категориальных факторов `A` и `B`, причём фактор `A` имеет 3 уровня, а фактор `B` - 4 уровня. Результаты наблюдений приведены в таблице:

```
y = [[2.68, 3.29, 2.88, 4.45],
     [4.12, 4.96, 5.09, 5.22],
     [5.52, 4.50, 5.42, 5.29]]
```

С помощью двухфакторного дисперсионного анализа проверьте влияние каждого из факторов на переменную `y`.


### Решение
Нулевые гипотезы:
$$H_{0a}: \:\: \overline{Y_{1 \ast}} = \dots = \overline{Y_{m \ast}}, \:\:
H_{0b}: \:\: \overline{Y_{\ast 1}} = \dots = \overline{Y_{\ast k}}$$

Оценки отклонений:
$$SS_a = k \cdot \displaystyle\sum_{i=1}^m \left( \overline{Y_{i \ast}} - \overline{Y} \right)^2, \:\:
SS_b = m \cdot \displaystyle\sum_{j=1}^k \left( \overline{Y_{\ast j}} - \overline{Y} \right)^2, \:\:
SS_w = \displaystyle\sum_{i=1}^m \displaystyle\sum_{j=1}^k \left( y_{ij} - \overline{Y_{i \ast}} - \overline{Y_{\ast j}} + \overline{Y} \right)^2$$

Первая сумма — отклонения между уровнями фактора $a$, вторая — между уровнями фактора $b$, третья — внутригрупповые отклонения.

Оценки дисперсий:
$$\sigma_a^2 = \dfrac{SS_a}{m - 1}, \:\: \sigma_b^2 = \dfrac{SS_b}{k - 1}, \:\:
\sigma_w^2 = \dfrac{SS_w}{(k - 1) (m - 1)}$$

Статистика для гипотезы о влиянии фактора $a$:
$$F_a = \dfrac{\sigma_a^2}{\sigma_w^2}$$

В предположении верности гипотезы $H_{0a}$ эта статистика имеет распределение Фишера с параметрами $k_{1a} = m - 1$, $k_{2a} = n - m$. 
Аналогично, для гипотезы о влиянии фактора $b$ статистика:
$$F_b = \dfrac{\sigma_b^2}{\sigma_w^2}$$

Она также имеет распределение Фишера, теперь с параметрами $k_{1b} = k - 1$, $k_{2b} = n - k$.

In [52]:
import numpy as np
from scipy import stats
Y =np.array([[2.68, 3.29, 2.88, 4.45],
     [4.12, 4.96, 5.09, 5.22],
     [5.52, 4.50, 5.42, 5.29]])
print (Y)

[[2.68 3.29 2.88 4.45]
 [4.12 4.96 5.09 5.22]
 [5.52 4.5  5.42 5.29]]


In [53]:
m = Y.shape[0]
k = Y.shape[1]
n = m* k
m,k,n

(3, 4, 12)

In [54]:
# Вычислим средние по каждому из измерений
Y_im = Y.mean(axis = 0)
Y_ik = Y.mean(axis = 1)
Y_im, Y_ik

(array([4.10666667, 4.25      , 4.46333333, 4.98666667]),
 array([3.325 , 4.8475, 5.1825]))

In [55]:
# вычислим отклонения для каждого фактора 
SS_a = k * ((Y_im - Y.mean())**2).sum()
SS_b = m * ((Y_ik - Y.mean())**2).sum()
SS_a, SS_b

(1.7842222222222253, 5.880537499999999)

In [56]:
# сначала преобразуем строку средний значений в столбцы и повторим столбцы для вычисления разности каждого элемента  
Yik = np.row_stack((Y_ik, Y_ik,Y_ik, Y_ik)).T  
# и теперь вычислим внутригрупповые отклонения
SS_w = ((Y - Y_im - Yik + Y.mean())**2).sum()
SS_w

1.9298833333333332

In [57]:
# Вычислим дисперсии
sigma2_a = SS_a / (m-1)
sigma2_b = SS_b / (k-1)
sigma2_w = SS_w / ((m-1)*(k-1))

sigma2_a, sigma2_b, sigma2_w


(0.8921111111111126, 1.9601791666666664, 0.3216472222222222)

In [58]:
# Статистика для гипотезы о влиянии фактора  𝑎 :
F_a = sigma2_a / sigma2_w
# Статистика для гипотезы о влиянии фактора  b :
F_b = sigma2_b / sigma2_w
F_a, F_b

(2.7735700776385497, 6.094189631497586)

In [59]:
# Посчитаем критическую область для фактора a и для фактора b:
k1a = m-1
k2a = n-m
k1b = k-1
k2b = n-k
alpha = 0.05
ta = stats.f.ppf(1 - alpha, k1a, k2a)
tb = stats.f.ppf(1 - alpha, k1b, k2b)
print(f'Критичекая область для  фактора a = ({ta}, inf),\nКритичекая область для  фактора b = ({tb}, inf)')

Критичекая область для  фактора a = (4.25649472909375, inf),
Критичекая область для  фактора b = (4.06618055135116, inf)


Гипотеза $H_{0a}$ подтверждается, так как статистика $F_a$ не попадает в критическую область и следовательно отклонение средних величин относительно фактора $a$ не значимо.

А статистика  $F_b$ попадает в критическую область и гипотеза $H_{0b}$ не подтверждается, следовательно отклонение средних величин относительно фактора $b$ - значимо.