In [1]:
import numpy as np
from scipy import stats

### Задание 1

Объясняемая переменная y зависит от двух категориальных факторов A и B, причём фактор A имеет 3 уровня, а фактор B - 4 уровня. Результаты наблюдений приведены в таблице:

In [2]:
y = [[2.68, 3.29, 2.88, 4.45],
     [4.12, 4.96, 5.09, 5.22],
     [5.52, 4.50, 5.42, 5.29]]

С помощью двухфакторного дисперсионного анализа проверьте влияние каждого из факторов на переменную y.

In [3]:
y = np.array(y)

Нулевые гипотезы:
$H_{0a}: \:\: \overline{Y_{1 \ast}} = \dots = \overline{Y_{m \ast}}, \:\:
H_{0b}: \:\: \overline{Y_{\ast 1}} = \dots = \overline{Y_{\ast k}}$

Суммы квадратов отклонений:
$SS_a = k \cdot \displaystyle\sum_{i=1}^m \left( \overline{Y_{i \ast}} - \overline{Y} \right)^2, \:\:
SS_b = m \cdot \displaystyle\sum_{j=1}^k \left( \overline{Y_{\ast j}} - \overline{Y} \right)^2, \:\:
SS_w = \displaystyle\sum_{i=1}^m \displaystyle\sum_{j=1}^k \left( y_{ij} - \overline{Y_{i \ast}} - \overline{Y_{\ast j}} + \overline{Y} \right)^2$

In [4]:
Y = y.mean()
Yi = y.mean(axis=1)
Yj = y.mean(axis=0)

Y, Yi, Yj

(4.451666666666666,
 array([3.325 , 4.8475, 5.1825]),
 array([4.10666667, 4.25      , 4.46333333, 4.98666667]))

In [5]:
m, k = y.shape
n = m * k

m, k, n

(3, 4, 12)

In [6]:
SS_a = k * sum((Yi - Y) ** 2)
SS_b = m * sum((Yj - Y) ** 2)
SS_w = 0

for i in range(m):
    for j in range(k):
        SS_w += (y[i, j] - Yi[i] - Yj[j] + Y) ** 2

SS_a, SS_b, SS_w

(7.8407166666666654, 1.338166666666669, 1.9298833333333327)

Оценки дисперсий:
$\sigma_a^2 = \dfrac{SS_a}{m - 1}, \:\: \sigma_b^2 = \dfrac{SS_b}{k - 1}, \:\:
\sigma_w^2 = \dfrac{SS_w}{(k - 1) (m - 1)}$

In [7]:
sigma2_a = SS_a / (m - 1)
sigma2_b = SS_b / (k - 1)
sigma2_w = SS_w / ((k - 1) * (m - 1))

sigma2_a, sigma2_b, sigma2_w

(3.9203583333333327, 0.4460555555555563, 0.32164722222222214)

Статистика для гипотезы о влиянии фактора $a$:
$F_a = \dfrac{\sigma_a^2}{\sigma_w^2}$

Статистика для гипотезы о влиянии фактора $b$:
$F_b = \dfrac{\sigma_b^2}{\sigma_w^2}$

In [8]:
F_a = sigma2_a / sigma2_w
F_b = sigma2_b / sigma2_w

F_a, F_b

(12.188379262995173, 1.386785038819275)

Критическая область для фактора $a$: $\Omega_{\alpha_a} = \left( t_{1 - \alpha, \: k_{1a}, \: k_{2a}}, \infty \right), k_{1a} = m - 1, k_{2a} = n - m$

Критическая область для фактора $b$: $\Omega_{\alpha_b} = \left( t_{1 - \alpha, \: k_{1b}, \: k_{2b}}, \infty \right), k_{1b} = k - 1, k_{2b} = n - k$

In [9]:
alpha = 0.05
t_a = stats.f.ppf(1 - alpha, m - 1, n - m)
t_b = stats.f.ppf(1 - alpha, k - 1, n - k)


t_a, t_b

(4.25649472909375, 4.06618055135116)

In [10]:
F_a > t_a

True

Значение статистики для фактора $a$ попадает в критическую область, следовательно, нулевая гипотеза $H_{0a}: \overline{Y_{1 \ast}} = \dots = \overline{Y_{m \ast}}  \:$ отвергается, а влияние фактора $a$ на результат наблюдений является статистически значимым

In [11]:
F_b > t_b

False

Значение статистики для фактора $b$ не попадает в критическую область, следовательно, нулевая гипотеза $H_{0b}: \overline{Y_{\ast 1}} = \dots = \overline{Y_{\ast k}} \:$ принимается, а влияние фактора $b$ на результат наблюдений статистически значимым не является