# Home Work 8

## Задача

Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов:

football_players = [173, 175, 180, 178, 177, 185, 183, 182]  
hockey_players = [177, 179, 180, 188, 177, 172, 171, 184, 180]  
lifters = [172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170]

In [1]:
import numpy as np
from scipy import stats

## Решение:

Требуется проверить гипотезу о различии среднего роста по каждой группе. Для проверки этой гипотезы воспользуемся однофакторным дисперсионным анализом.

В __однофакторном дисперсионном анализе__ на одну переменную $Y$ влияет один фактор, наблюдаемый на $k$ _уровнях_, т.е. имеем $k$ выборок для переменной $Y$. Проверяется гипотеза $H_0$ о равенстве средних значений по каждой выборке:

$$H_0: \: \overline{y_1} = \dots = \overline{y_k}.$$

Наблюдаемые данные обозначим $y_{ij}$, где $i$ — индекс уровня ($i = 1, 2, \dots, k$), $j$ — индекс наблюдения на $i$-м уровне ($j = 1, 2, \dots, n_i$). Здесь $n_i$ - число наблюдений на $i$-м уровне. Таким образом, 

$$y_i = \{ y_{i1}, \dots, y_{i n_i} \}$$

для $i = 1, 2, \dots, k$. Соответственно, $\overline{y_i}$ - среднее значение на выборке $y_i$. Обозначим через $n$ общее число наблюдений:

$$n = \displaystyle\sum_{j=1}^{k} n_i.$$

In [2]:
y1 = np.array([173, 175, 180, 178, 177, 185, 183, 182], dtype=np.float64)
y2 = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180], dtype=np.float64)
y3 = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170], dtype=np.float64)

In [3]:
n1 = y1.shape[0]
n2 = y2.shape[0]
n3 = y3.shape[0]

Выборочные средние по каждой группе:

In [4]:
y1_mean = y1.mean()
y2_mean = y2.mean()
y3_mean = y3.mean()

y1_mean, y2_mean, y3_mean

(179.125, 178.66666666666666, 172.72727272727272)

Видно, что средний рост спортсменов отличается. Проверим статистическую значимость этого различия. 

Соберём все значения заработных плат в один массив:

In [5]:
y = np.concatenate([y1, y2, y3])

print(y)

[173. 175. 180. 178. 177. 185. 183. 182. 177. 179. 180. 188. 177. 172.
 171. 184. 180. 172. 173. 169. 177. 166. 180. 178. 177. 172. 166. 170.]


Среднее от всей выборки:

$$\overline{y} = \dfrac{1}{n} \displaystyle\sum_{i=1}^k \displaystyle\sum_{j=1}^{n_i} y_{ij}.$$

In [6]:
y_mean = y.mean()
y_mean

176.46428571428572

Сумма квадратов отклонений наблюдений от общего среднего:

$$S^2 = \displaystyle\sum_{i=1}^{k} \displaystyle\sum_{j=1}^{n_i} ({y}_{ij} - \overline{y})^2.$$

Эту сумму можно разбить на сумму квадратов отклонений средних групповых значений от общего среднего значения $\overline{y}$:

$$S_b^2 = \displaystyle\sum_{i=1}^k (\overline{y}_i - \overline{y})^2 n_i$$

и остаточную сумму квадратов отклонений:

$$S_{w}^{2} = \displaystyle\sum_{i=1}^k \displaystyle\sum_{j=1}^{n_i} (y_{ij} - \overline{y}_i)^2.$$

Для этих значений должно быть справедливо равенство

$$S^2 = S_b^2 + S_{w}^2.$$

Найдём значения $S_b$ и $S_{w}$:

In [7]:
S2_b = n1 * (y1_mean - y_mean) ** 2 + n2 * (y2_mean - y_mean) ** 2 + n3 * (y3_mean - y_mean) ** 2

S2_w = ((y1 - y1_mean) ** 2).sum() + ((y2 - y2_mean) ** 2).sum() + ((y3 - y3_mean) ** 2).sum()

S2_b, S2_w

(253.9074675324678, 577.0568181818182)

Проверим выполнение равенства $S^2 = S_b^2 + S_{w}^2:$

In [15]:
round((S2_b + S2_w), 10) == round(((y - y_mean) ** 2).sum(), 10)

True

По этим значениям можно вычислить соответствующие несмещённые оценки дисперсий:

$$\sigma^2 = \dfrac{S^2}{n - 1}, \: \sigma_b^2 = \dfrac{S_b^2}{k - 1}, \: \sigma_{w}^2 = \dfrac{S_{w}^2}{n - k}.$$

Запишем оценки дисперсий:

In [9]:
k = 3
n = n1 + n2 + n3

k1 = k - 1
k2 = n - k

sigma2_b = S2_b / k1
sigma2_w = S2_w / k2

sigma2_b, sigma2_w

(126.9537337662339, 23.08227272727273)


Для проверки гипотезы $H_0$ запишем статистику

$$T = \dfrac{\sigma_b^2}{\sigma_{w}^2}.$$

В предположении верности гипотезы $H_0$ статистика $T$ имеет распределение Фишера с параметрами $k_1 = k - 1$, $k_2 = n - k$. Для выбранного уровня значимости $\alpha$ можно рассчитать критическое значение $F_{crit}$, равное квантилю порядка $1 - \alpha$ для распределения $F(k_1, k_2)$. Если $T > F_{crit}$, то гипотеза $H_0$ отвергается.

Итак, значение статистики $T$:

In [10]:
T = sigma2_b / sigma2_w
T

5.500053450812598

Зафиксируем уровень значимости $\alpha = 0.05$. Для него найдём критическое значение $F_{crit}$:

In [11]:
alpha = 0.05

F_crit = stats.f.ppf(1 - alpha, k1, k2)
F_crit

3.3851899614491687

Видим, что $T > F_{crit}$, поэтому заключаем, что различие среднего роста действительно является статистически значимым.