### Задача 1

Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов: 

``football_players = [173, 175, 180, 178, 177, 185, 183, 182]``  
``hockey_players = [177, 179, 180, 188, 177, 172, 171, 184, 180]``  
``lifters = [172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170]``

#### Решение

In [1]:
import numpy as np

In [2]:
football_players = [173, 175, 180, 178, 177, 185, 183, 182]
hockey_players = [177, 179, 180, 188, 177, 172, 171, 184, 180]
lifters = [172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170]

Требуется проверить гипотезу у равенстве среднего роста по каждой группе. Для проверки этой гипотезы воспользуемся однофакторным дисперсионным анализом.

In [3]:
y1 = np.array(football_players)
y2 = np.array(hockey_players)
y3 = np.array(lifters)

In [4]:
n1 = y1.shape[0]
n2 = y2.shape[0]
n3 = y3.shape[0]

Количество наблюдений в каждой из групп:

In [5]:
n1, n2, n3

(8, 9, 11)

Выборочные средние по каждой группе:

In [6]:
y1_mean = y1.mean()
y2_mean = y2.mean()
y3_mean = y3.mean()

In [7]:
y1_mean, y2_mean, y3_mean

(179.125, 178.66666666666666, 172.72727272727272)

Соберём все значения один массив:

In [9]:
y = np.concatenate([y1, y2, y3])

In [11]:
y

array([173, 175, 180, 178, 177, 185, 183, 182, 177, 179, 180, 188, 177,
       172, 171, 184, 180, 172, 173, 169, 177, 166, 180, 178, 177, 172,
       166, 170])

Найдем общее среднее:

In [13]:
y_mean = y.mean()

In [14]:
y_mean

176.46428571428572

Найдём значения $S^2_F$ и $S^2_{res}$:

$$S_F^2 = \displaystyle\sum_{i=1}^k (\overline{y}_i - \overline{y})^2 n_i$$

In [17]:
S2_F = n1 * (y1_mean - y_mean) ** 2 + n2 * (y2_mean - y_mean) ** 2 + n3 * (y3_mean - y_mean) ** 2

$$S_{res}^{2} = \displaystyle\sum_{i=1}^k \displaystyle\sum_{j=1}^{n_i} (y_{ij} - \overline{y}_i)^2.$$

In [19]:
S2_res = ((y1 - y1_mean) ** 2).sum() + ((y2 - y2_mean) ** 2).sum() + ((y3 - y3_mean) ** 2).sum()

In [20]:
S2_F, S2_res

(253.9074675324678, 577.0568181818182)

Проверим выполнение равенства $S^2 = S_F^2 + S_{res}^2$:

In [21]:
S2_F + S2_res == ((y - y_mean) ** 2).sum()

False

Проверим на сколько отличаются значения:

In [24]:
abs((S2_F + S2_res) - ((y - y_mean) ** 2).sum())

5.684341886080801e-13

Значения отличаются в рамках погрешности вычислений. Т.е. $S^2 = S_F^2 + S_{res}^2$

Запишем оценки дисперсий:

$$\sigma_F^2 = \dfrac{S_F^2}{k - 1}, \: \sigma_{res}^2 = \dfrac{S_{res}^2}{n - k}$$

In [25]:
k = 3
n = n1 + n2 + n3

k1 = k - 1
k2 = n - k

sigma2_F = S2_F / k1
sigma2_res = S2_res / k2

sigma2_F, sigma2_res

(126.9537337662339, 23.08227272727273)

Значение статистики $T$:

$$T = \dfrac{\sigma_F^2}{\sigma_{res}^2}.$$

In [26]:
T = sigma2_F / sigma2_res

In [28]:
T

5.500053450812598

Зафиксируем уровень значимости $\alpha = 0.05$. Для него найдём критическое значение $F_{crit}$:

In [29]:
from scipy import stats

In [31]:
alpha = 0.05
F_crit = stats.f.ppf(1 - alpha, k1, k2)

In [32]:
F_crit

3.3851899614491687

In [33]:
T > F_crit

True

#### Ответ

Отличие среднего роста действительно является статистически значимым.

### Задача 2

Прикрепить ссылку на курсовой проект на github (см. выбор темы в ДЗ к Уроку 6).

#### Решение

Ссылка на репозиторий: https://github.com/meFargot/gu-terver-matstat

В данном репозитоии в ветке master к 10.06.19 будет лежать файл SKabanov_kurs_project.ipynb в котором будет курсовая работа.