In [11]:
import numpy as np
import pandas as pd
from scipy import stats

## Дисперсионный анализ. Факторный анализ. Логистическая регрессия

### Задача 1

Проведите дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трёх группах случайно выбранных спортсменов: 

In [2]:
football_players = np.array([173, 175, 180, 178, 177, 185, 183, 182])
hockey_players = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180])
lifters = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170])

n_footbal = football_players.shape[0]
n_hockey = hockey_players.shape[0]
n_lifters = lifters.shape[0]

In [3]:
n_footbal, n_hockey, n_lifters

(8, 9, 11)

Для проверки гипотезы о различии среднего роста для трех представленных групп, поспользуемся однофакторным дисперсионным анализом

Выборочные средние по каждой группе:

In [4]:
football_players_mean = football_players.mean()
hockey_players_mean = hockey_players.mean()
lifters_mean = lifters.mean()

football_players_mean, hockey_players_mean, lifters_mean

(179.125, 178.66666666666666, 172.72727272727272)

Средний рост различается между группами, однако видно что между хоккеистами и футболистами различие не очень велико. Проверим статистическую значимость гипотезы о том, что средние значения различны.

Среднее по всем значениям:

In [5]:
all = np.concatenate([football_players, hockey_players, lifters])
all_mean = all.mean()

all_mean

176.46428571428572

Посчитаем значения $S_{F}$ и $S_{r e s}$:

In [6]:
S2_F = n_footbal * (football_players_mean - all_mean) ** 2 + n_hockey * (
    hockey_players_mean - all_mean) ** 2 + n_lifters * (
    lifters_mean - all_mean) ** 2

S2_res = ((football_players - football_players_mean) ** 2).sum() + (
    (hockey_players - hockey_players_mean) ** 2).sum() + (
    (lifters - lifters_mean) ** 2).sum()

S2_F, S2_res

(253.9074675324678, 577.0568181818182)

Проверим равенство, чтобы убедиться, что значения посчитаны верно $ S^{2}=S_{F}^{2}+S_{r e s}^{2} $

In [7]:
S2_F + S2_res == ((all - all_mean) ** 2).sum()

False

In [8]:
S2_F + S2_res, ((all - all_mean) ** 2).sum()

(830.964285714286, 830.9642857142854)

Вероятно, ошибка в 12 знаке после запятой произошла из-за ошибок округления при работе с периодическими дробями. Считаем равенство верным

Оценки дисперсий

In [9]:
k = 3
n = n_footbal + n_hockey + n_lifters

k1 = k - 1
k2 = n - k

sigma2_F = S2_F / k1
sigma2_res = S2_res / k2

sigma2_F, sigma2_res

(126.9537337662339, 23.08227272727273)

И значение статистики:

In [10]:
T = sigma2_F / sigma2_res
T

5.500053450812598

In [12]:
alpha = 0.05

F_crit = stats.f.ppf(1 - alpha, k1, k2)
F_crit

3.3851899614491687

Мы попали в критическую зону, значит гипотеза $H_0$ о равенстве средних значений отвергнута. Различия статистически значимы

### Задача 2

С помощью критерия Стьюдента для двух независимых выборок проверьте гипотезу о равенстве среднего роста футболистов и хоккеистов из задачи 1.

Предположим что рост среди хоккеистов и футболистов распределен нормально. Проверим гипотезу $H_0$ о равенстве средних значений для 2 выборок

In [15]:
X = football_players_mean - hockey_players_mean
X

0.4583333333333428

In [16]:
std_X = np.sqrt((
    football_players.var(ddof=1) / n_footbal) + (hockey_players.var(ddof=1) / n_hockey))
std_X

2.2998770671080497

In [18]:
T = X / std_X
T

0.19928601397363732

In [22]:
alpha = 0.05

F_crit = stats.t.ppf(1 - alpha/2, n_footbal + n_hockey - 2)
F_crit

2.131449545559323

Статистический тест показал, что с уровнем значимости 5% гипотеза $H_0$ не может может быть отвергнута. Различия в средних значениях роста между хоккеистами и футболистами статистически незначимо.