# Урок 8. Дисперсионный анализ. Логистическая регрессия

In [1]:
import numpy as np
from scipy import stats

__Задача 1__

Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов:

football_players = [173, 175, 180, 178, 177, 185, 183, 182]
hockey_players = [177, 179, 180, 188, 177, 172, 171, 184, 180]
lifters = [172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170]

In [2]:
y1 = np.array([173, 175, 180, 178, 177, 185, 183, 182]) # football_players
y2 = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180]) # hockey_players
y3 = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170]) # lifters

n1 = y1.shape[0]
n2 = y2.shape[0]
n3 = y3.shape[0]

n1, n2, n3

(8, 9, 11)

Требуется проверить гипотезу у равенстве среднего роста по каждой группе. Для проверки этой гипотезы воспользуемся однофакторным дисперсионным анализом. В однофакторном дисперсионном анализе исследуется влияние одной категориальной переменной  y (в нашем случае рост) , имеющей  𝑘  уровней (в нашем случае 3 группы) , на количественную переменную  𝑦 (средний рост). Проверяется нулевая гипотеза о том, что среднее значение переменной  𝑦  (средний рост) на всех уровнях фактора  𝑥  совпадает.

Выборочные средние по каждой группе:

In [3]:
y1_mean = y1.mean()
y2_mean = y2.mean()
y3_mean = y3.mean()

y1_mean, y2_mean, y3_mean

(179.125, 178.66666666666666, 172.72727272727272)

Видно, что значения среднего роста по трем группам близки между собой.

Соберём все значения роста в один массив:

In [4]:
y = np.concatenate([y1, y2, y3])

print(y)

[173 175 180 178 177 185 183 182 177 179 180 188 177 172 171 184 180 172
 173 169 177 166 180 178 177 172 166 170]


Найдем значение среднего роста всех спортсменов:

In [5]:
y_mean = y.mean()
y_mean

176.46428571428572

Найдём значения  𝑆𝑏  и  𝑆𝑤 :

In [6]:
S2_b = n1 * (y1_mean - y_mean) ** 2 + n2 * (y2_mean - y_mean) ** 2 + n3 * (y3_mean - y_mean) ** 2

S2_w = ((y1 - y1_mean) ** 2).sum() + ((y2 - y2_mean) ** 2).sum() + ((y3 - y3_mean) ** 2).sum()

S2_b, S2_w

(253.9074675324678, 577.0568181818182)

Проверим выполнение равенства  𝑆2=𝑆2𝑏+𝑆2𝑤:

In [7]:
S2_b + S2_w == ((y - y_mean) ** 2).sum()

False

In [8]:
S2_b + S2_w, ((y - y_mean) ** 2).sum() # но ведь на самом деле равенство есть?

(830.964285714286, 830.9642857142854)

Запишем оценки дисперсий:

In [9]:
k = 3
n = n1 + n2 + n3

k1 = k - 1
k2 = n - k

sigma2_b = S2_b / k1
sigma2_w = S2_w / k2

sigma2_b, sigma2_w

(126.9537337662339, 23.08227272727273)

Значение статистики  𝑇 :

In [10]:
T = sigma2_b / sigma2_w
T

5.500053450812598

Зафиксируем уровень значимости  𝛼=0.05 . Для него найдём критическое значение  𝐹𝑐𝑟𝑖𝑡 :

In [11]:
alpha = 0.05

F_crit = stats.f.ppf(1 - alpha, k1, k2)
F_crit

3.3851899614491687

In [12]:
p = 1 - stats.f.cdf(T, k1, k2)
p

0.010482206918698611

Видим, что  𝑇>𝐹𝑐𝑟𝑖𝑡 , поэтому заключаем, что различие среднего роста в трех группах статистически значимо.

In [13]:
#проверка с помощью библиотеки
from scipy.stats import f_oneway
f_oneway(y1, y2, y3)

F_onewayResult(statistic=5.500053450812596, pvalue=0.010482206918698694)

__Задача 2__

Прикрепите ссылку на курсовой проект на github (см. выбор темы в ДЗ к Уроку 6).