## Теория вероятностей и математическая статистика
## Урок 8
### Дисперсионный анализ. Факторный анализ. Логистическая регрессия.

### Задача 1:  
**Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов: Футболисты: 173, 175, 180, 178, 177, 185, 183, 182. Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180. Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170. alpha = 0.05.**

In [198]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scipy.stats as stats

In [199]:
# Имеем массивы
foot = np.array ([173, 175, 180, 178, 177, 185, 183, 182], dtype=np.float64)
hockey = np.array ([177, 179, 180, 188, 177, 172, 171, 184, 180], dtype=np.float64)
lifters = np.array ([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170], dtype=np.float64)
print(f' foot=> {foot}\n hockey=> {hockey}\n lifters=> {lifters}\n')

 foot=> [173. 175. 180. 178. 177. 185. 183. 182.]
 hockey=> [177. 179. 180. 188. 177. 172. 171. 184. 180.]
 lifters=> [172. 173. 169. 177. 166. 180. 178. 177. 172. 166. 170.]



На каждом уровне может быть свое число наблюдений  ni.  
Общее число наблюдений — это сумма наблюдений на всех уровнях:
$$n = \sum\limits_{i=1}^{k}n_i$$

In [200]:
# Ищем длину массивов:
n1 = len(foot)
n2 = len(hockey)
n3 = len(lifters)
n = n1+n2+n3
k = 3 
print(f' n1={n1}\n n2={n2}\n n3={n3}\n n = {n}\n k = {k}')

 n1=8
 n2=9
 n3=11
 n = 28
 k = 3


По данным $y_{ij}$ определяется $\overline{y}_{i}$ — среднее значение переменной Y на i-м уровне: 
$$\overline{y}_{i} = \frac{1}{n_i}\sum\limits_{j=1}^{n_i}y_{ij}$$

In [201]:
# Ищем средние значения по массивам
foot_mean = np.mean(foot)
hockey_mean = np.mean(hockey)
lifters_mean = np.mean(lifters)

print(f' {foot_mean}\n {hockey_mean}\n {lifters_mean}\n')

 179.125
 178.66666666666666
 172.72727272727272



*Очевидно, что средний рост хоккеистов и футболистов почти равны. Штангисты ниже примерно на 10%.*

Проверим статистическую значимость всех отличий.

$\overline{Y}$ — среднее значение переменной Y по всем значениям:
$$\overline{Y} = \frac{1}{n}\sum\limits_{i=1}^{k}\sum\limits_{j=1}^{n_i}y_{ij} = \frac{1}{n}\sum\limits_{i=1}^{k}\overline{y}_{i}n_{i}$$

In [202]:
# Сводим все данные в один массив:
y = np.concatenate([foot, hockey, lifters])
print(y)

[173. 175. 180. 178. 177. 185. 183. 182. 177. 179. 180. 188. 177. 172.
 171. 184. 180. 172. 173. 169. 177. 166. 180. 178. 177. 172. 166. 170.]


In [203]:
# ищем среднее значение переменной Y по всем значениям:
y_mean = np.mean(y)
y_mean

176.46428571428572

Найдём значение $S^2$ — сумма квадратов отклонений наблюдений от общего среднего:
$$S^2 = \sum\limits_{i=1}^{k}\sum\limits_{j=1}^{n_i}({y}_{ij} - \overline{Y})^2$$

In [204]:
S2 = round(np.sum((foot - y_mean)**2) + np.sum((hockey - y_mean)**2) + np.sum((lifters - y_mean)**2), 0)
S2

831.0

Найдём значение $S_F^2$ — сумма квадратов отклонений средних групповых значений от общего среднего значения $\overline{Y}$:
$$S_F^2 = \sum\limits_{i=1}^{k}(\overline{y}_i - \overline{Y})^2n_i$$

In [205]:
S2_F = round(n1 *(foot_mean - y_mean)**2 + n2 *(hockey_mean - y_mean)**2 + n3 *(lifters_mean - y_mean)**2, 0)
S2_F

254.0

Найдём значение $S_{ост}^2$ — остаточная сумма квадратов отклонений:
$$S_{ост}^{2} = \sum\limits_{i=1}^{k}\sum\limits_{j=1}^{n_i}(y_{ij} - \overline{y}_i)^2$$

In [206]:
S2_res = round(np.sum((foot - foot_mean)**2) + np.sum((hockey - hockey_mean)**2) + np.sum((lifters - lifters_mean)**2), 0)
S2_res

577.0

Cумма квадратов отклонений наблюдений от общего среднего дожна быть равна:
$$S^2 = S_F^2 + S_{ост}^2$$

In [207]:
# Проверим сумму квадратов отклонений наблюдений:
S2 == S2_F + S2_res

True

Отклонения посчитаные верно, теперь ищем дисперсию.

Общая дисперсия:
$$\sigma_{общ}^{2} = \frac{S^2}{n - 1} = \frac{1}{n-1}\sum\limits_{i=1}^{k}\sum\limits_{j=1}^{n_i}(y_{ij} - \overline{Y})^2$$

In [208]:
sigma2_O = round(S2 /(n-1), 4)
sigma2_O

30.7778

Факторная дисперсия:
$$\sigma_{F}^{2} = \frac{S_{F}^{2}}{k-1} = \frac{1}{k-1}\sum\limits_{i=1}^{k}(\overline{y}_i - \overline{Y})^{2}n_i$$

In [209]:
sigma2_F = S2_F / (k-1)
sigma2_F

127.0

Остаточная дисперсия:
$$\sigma_{ост}^{2} = \frac{S_{ост}^{2}}{n - k} = \frac{1}{n - k}\sum\limits_{i=1}^{k}\sum\limits_{j=1}^{n_i}(y_{ij} - \overline{y}_i)^2$$

In [210]:
sigma2_res = S2_res / (n-k)
sigma2_res

23.08

В дисперсионном анализе проверяется гипотеза $H_0$ о равенстве средних групповых значений количественного показателя:
$$(H_0: \overline{y}_1 = \overline{y}_2 = ... = \overline{y}_k).$$

Чтобы проверить эту гипотезу, необходимо воспользоваться соотношением:
$$F_H = \frac{\sigma_{F}^{2}}{\sigma_{ост}^{2}}$$

*Если значение  FH  превышает  Fкрит  из таблицы критических точек распределения Фишера-Снедекора для заданного уровня значимости  α  двух степеней свободы  dfмежд=k−1  (относится к числителю соотношения) и  dfвнутр=n−k  (относится к знаменателю), то выборки имеют разные средние значения.*

In [211]:
# Получаем значение статистики T:
T = sigma2_F / sigma2_res
T

5.50259965337955

Зафиксируем уровень значимости ${\alpha} = 0.05$. Для него найдём критическое значение $F_{crit}$ по таблице Фишера-Снедекора:

In [212]:
alpha = 0.05
F_crit = stats.f.ppf(1 - alpha, k1, k2)
F_crit

3.3851899614491687

In [213]:
T > F_crit

True

**Подтверждается, что $T > F_{crit}$, поэтому отличие среднего роста футболистов, хокеистов и штангистов является статистически значимым.**

*Для проверки воспользуемся встроенным методом однофакторного дисперсионного анализа библиотеки scipy:*

In [214]:
stats.f_oneway(foot, hockey, lifters)

F_onewayResult(statistic=5.500053450812596, pvalue=0.010482206918698694)

Получили значение pvalue=0.0105, и значит на уровне статистической значимости  ${\alpha} = 0.05$ отвергаем нулевую гипотезу. 

**Т.е. средний рост футболистов, хоккеистов и штангистоа различен.**

Важно проверить ещё одно соотношение:
$$\eta^{2} = \frac{S_{F}^{2}}{S_{общ}^{2}}$$
*Чем больше значение  η2  (греч. «эта», обозначает эмпирическое корреляционное отношение, располагается между 0 и 1), тем больше вероятность, что выборки имеют разные средние значения.*

In [215]:
nu_2 = S2_F / S2
nu_2

0.3056558363417569

**ВЫВОД:
принято считать, что при значениях  η2  ниже 0.2-0.3 групповые значения средних не имеют статистически достоверного отличия.
В нашем случае значение  η2=0.31 и превышает 0.3, а значит различие среднего роста в трех группах спортсменов является статистически значимым.**