Анастасия Плавина

### Тема: Дисперсионный анализ

#### Задача 1

Объясняемая переменная y зависит от двух категориальных факторов A и B, причём фактор A имеет 3 уровня, а фактор B - 4 уровня. Результаты наблюдений приведены в таблице:

y = [[2.68, 3.29, 2.88, 4.45],
     [4.12, 4.96, 5.09, 5.22],
     [5.52, 4.50, 5.42, 5.29]]

С помощью двухфакторного дисперсионного анализа проверьте влияние каждого из факторов на переменную y.

In [1]:
import numpy as np

y = np.array([
     [2.68, 3.29, 2.88, 4.45], 
     [4.12, 4.96, 5.09, 5.22], 
     [5.52, 4.50, 5.42, 5.29]
])

n = y.shape[0]*y.shape[1]

Найдем межгрупповые отклонения по формулам: 

$S_a^2 = k \cdot \displaystyle\sum_{i=1}^m \left( \overline{Y_{i \ast}} - \overline{Y} \right)^2$

$S_b^2 = m \cdot \displaystyle\sum_{j=1}^k \left( \overline{Y_{\ast j}} - \overline{Y} \right)^2$

In [2]:
m = 3
k = 4
y_mean = np.mean(y)

In [3]:
def Sb_2(y, a, b, axis):
    Y_i=0
    y_mean = np.mean(y)
    for i in range (a):
        Y_i += (np.mean(y.take(i,axis)) - y_mean)**2
    return Y_i * b

In [4]:
Sba_2 = Sb_2(y, m, k, 0)
Sba_2

7.8407166666666654

In [5]:
Sbb_2 = Sb_2(y, k, m, 1)
Sbb_2

1.338166666666669

Вычислим внутригрупповые отклонения: 

$S_w^2 = \displaystyle\sum_{i=1}^m \displaystyle\sum_{j=1}^k \left( y_{ij} - \overline{Y_{i \ast}} - \overline{Y_{\ast j}} + \overline{Y} \right)^2$

In [6]:
def S_w2(y, a, b):
    y_mean = np.mean(y)
    Sw_2 = 0
    for i in range(a):
        for j in range(b):
            Sw_2 += (y[i,j] - np.mean(y.take(i,0))  - np.mean(y.take(j,1)) + y_mean)**2
    return Sw_2

In [7]:
S_w2 = S_w2(y, m, k)
S_w2

1.9298833333333327

Определим оценки дисперсий по формулам:

$\sigma_a^2 = \dfrac{S_a^2}{m - 1}, \:\: \sigma_b^2 = \dfrac{S_b^2}{k - 1}, \:\:
\sigma_w^2 = \dfrac{S_w^2}{(k - 1) (m - 1)}$


In [8]:
sigma_a2 = Sba_2 / (m-1)
sigma_b2 = Sbb_2 / (k-1)
sigma_w2 = S_w2 / (m-1)*(k-1)

Нулева гипотеза $H_{0a}$: y не зависит от категориального фактора A

Нулева гипотеза $H_{0b}$: y не зависит от категориального фактора B

Проверим $H_{0a}:$

$$F_a = \dfrac{\sigma_a^2}{\sigma_w^2}$$

In [9]:
F_a = sigma_a2/sigma_w2
F_a

1.3542643625550195

In [10]:
k_1a = m - 1
k_2a = n - m

In [11]:
from scipy import stats

alpha = 0.05
t = stats.f.ppf(1-alpha, k_1a, k_2a)
t

4.25649472909375

Значение статистики не попадает в критическую область => $H_{0a}$ в силе, y не зависит от фактора А

Проверим $H_{0b}:$

$$F_b = \dfrac{\sigma_b^2}{\sigma_w^2}$$

In [12]:
F_b = sigma_b2/sigma_w2
F_b

0.15408722653547502

In [13]:
k_1b = k - 1
k_2b = n - k

In [14]:
from scipy import stats

alpha = 0.05
t = stats.f.ppf(1-alpha, k_1b, k_2b)
t

4.06618055135116

Значение статистики не попадает в критическую область => $H_{0b}$ в силе, y не зависит от фактора B