In [41]:
import numpy as np
from scipy import stats

# Домашняя работа №8

**№1**.
Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов: 
```
football_players = [173, 175, 180, 178, 177, 185, 183, 182]
hockey_players = [177, 179, 180, 188, 177, 172, 171, 184, 180]
lifters = [172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170]
```


**Решение.**
Имеем однофакторный дисперсионный анализ, в котором на переменную $Y$ (рост) влияет один фактор (вид спорта), наблюдаемый $k = 3$ раза.

Составляем выборки и определяем число элементов в каждой.

In [42]:
y1 = np.array([173, 175, 180, 178, 177, 185, 183, 182], dtype=np.float64)
y2 = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180], dtype=np.float64)
y3 = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170], dtype=np.float64)

n1 = y1.shape[0]
n2 = y2.shape[0]
n3 = y3.shape[0]

Вычисляем среднее по каждой выборке.

In [43]:
y1_mean = y1.mean()
y2_mean = y2.mean()
y3_mean = y3.mean()

y1_mean, y2_mean, y3_mean

(179.125, 178.66666666666666, 172.72727272727272)

Видно, что выборочные средние разнятся не сильно. Проверим статистическую значимость их различия.

Нулевая гипотеза $H_0$: средние значения по каждой выборке football_players, hockey_players, lifters равны. \
Альтернативная гипотеза $H_1$: средние значения по выборкам не равны. \
Критерий: $F = \dfrac{\sigma_b^2}{\sigma_{w}^2}$ имеет распределение Фишера с параметрами $k_1 = k - 1$, $k_2 = n - k$, где\
$$S_b^2 = \displaystyle\sum_{i=1}^k (\overline{y}_i - \overline{y})^2 n_i, \:
S_{w}^{2} = \displaystyle\sum_{i=1}^k \displaystyle\sum_{j=1}^{n_i} (y_{ij} - \overline{y}_i)^2$$,

$$\sigma_b^2 = \dfrac{S_b^2}{k - 1}, \: \sigma_{w}^2 = \dfrac{S_{w}^2}{n - k}.$$


Уровень значимости: $\alpha = 0.05$.\
Критическая область: правосторонняя $(F_{crit}; +\infty)$, где $F_{crit}$ -- квантиль порядка $1 - \alpha$ для распределения $F(k_1, k_2)$.

Вычислим критическое значение $F_{crit}$:

In [44]:
alpha = 0.05

F_crit = stats.f.ppf(1 - alpha, k1, k2)
F_crit

3.3851899614491687

Критическая область: $(3.38; +\infty)$.

Теперь рассчитаем наблюдаемое значение $F_{observ}$.

Составляем один массив из всех выборок.

In [45]:
y = np.concatenate([y1, y2, y3])

print(y)

[173. 175. 180. 178. 177. 185. 183. 182. 177. 179. 180. 188. 177. 172.
 171. 184. 180. 172. 173. 169. 177. 166. 180. 178. 177. 172. 166. 170.]


Вычислим среднее выборочное по $y$.

In [46]:
y_mean = y.mean()
y_mean

176.46428571428572

Вычислим $S_{b}^{2}$ и $S_{w}^{2}$:

In [47]:
S2_b = n1 * (y1_mean - y_mean) ** 2 + n2 * (y2_mean - y_mean) ** 2 + n3 * (y3_mean - y_mean) ** 2

S2_w = ((y1 - y1_mean) ** 2).sum() + ((y2 - y2_mean) ** 2).sum() + ((y3 - y3_mean) ** 2).sum()

S2_b, S2_w

(253.9074675324678, 577.0568181818182)

Вычислим $\sigma_b^2$ и $\sigma_w^2$:

In [48]:
k = 3
n = n1 + n2 + n3

k1 = k - 1
k2 = n - k

sigma2_b = S2_b / k1
sigma2_w = S2_w / k2

sigma2_b, sigma2_w

(126.9537337662339, 23.08227272727273)

Наблюдаемое значение $F_{observ}$:

In [49]:
F = sigma2_b / sigma2_w
F

5.500053450812598

Так как наблюдаемое значение больше критического ($F_{observ}>F_{crit}$), то оно попадает в правостороннюю критическую область $(3.38; +\infty)$.\
Следовательно, на уровне значимости $\alpha$ нулевую гипотезу отвергаем.\
**Вывод:** Отличия средних по выборкам football_players, hockey_players, lifters являются статистически значимыми.

Аналогичный результат можно получить, используя $p-value$.

In [50]:
from scipy.stats import f_oneway
f_oneway(y1, y2, y3)

F_onewayResult(statistic=5.500053450812596, pvalue=0.010482206918698694)

**№2**. Ссылка на курсовой проект.

https://github.com/EkaterinaBazhanova/TheoryOfPosibility/blob/EkaterinaBazhanova-course/Course.ipynb