Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов:
футболисты: 173, 175, 180, 178, 177, 185, 183, 182;
хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180;
штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170. alpha = 0.05.

In [2]:
import numpy as np

In [3]:
k = 3 # всего рассматриваются три группы спортсменов

Проведем однофакторный дисперсионный анализ. Найдем средние значения роста в каждой группе спортсменов:

In [4]:
# найдем среднее значение роста случайно выбранных футболистов
n1 = 8 # количество значений роста футболистов
y1 = np.array([173, 175, 180, 178, 177, 185, 183, 182], dtype = np.float64)
y1_mean = np.mean(y1)
print(y1_mean)

179.125


In [5]:
# найдем среднее значение роста случайно выбранных хокеистов
n2 = 9 # количество значений роста хокеистов
y2 = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180], dtype = np.float64)
y2_mean = np.mean(y2)
print(y2_mean)

178.66666666666666


In [6]:
# найдем среднее значение роста случайно выбранных штангистов
n3 = 11 # количество значений роста штангистов
y3 = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170], dtype = np.float64)
y3_mean = np.mean(y3)
print(y3_mean)

172.72727272727272


In [7]:
# найдем общее количество значений роста среди футболистов, хокеистов и штангистов
n = n1 + n2 + n3
print(n)

28


Из полученных результатов следует, что средние значения роста среди футболистов, хокеистов и штангистов разнятся. Необходимо убедиться, что этот факт статистически значим.
Соберем все значения роста среди футболистов, хокеистов и штангистов в один массив:

In [8]:
y_all = np.concatenate([y1, y2, y3])
print(y_all)

[173. 175. 180. 178. 177. 185. 183. 182. 177. 179. 180. 188. 177. 172.
 171. 184. 180. 172. 173. 169. 177. 166. 180. 178. 177. 172. 166. 170.]


Найдем среднее значение роста по всему массиву y_all:

In [9]:
y_mean = np.mean(y_all)
print(y_mean)

176.46428571428572


Найдем сумму квадратов отклонений наблюдений из данных выборок от общего среднего по всем выборкам (S^2):

In [10]:
s2 = np.sum((y_all - y_mean)**2)
print(s2)

830.9642857142854


Найдем сумму квадратов отклонений средних групповых значений наблюдений из каждой выборки от общего среднего по всем выборкам (S(st)^2):

In [12]:
s2_st = ((y1_mean - y_mean)**2) * n1 + ((y2_mean - y_mean)**2) * n2 + ((y3_mean - y_mean)**2) * n3
print(s2_st)

253.9074675324678


Найдем остаточную сумму квадратов отклонений по формуле S(ost)^ = S^2 - S(st)^2:

In [13]:
s2_ost = s2 - s2_st
print(s2_ost)

577.0568181818177


Найдем общую дисперсию:

In [14]:
sigma_gen = s2 / (n-1)
print(sigma_gen)

30.776455026455015


Найдем факторную дисперсию:

In [15]:
sigma2_f = s2_st / (k-1)
print(sigma2_f)

126.9537337662339


Найдем остаточную дисперсию:

In [17]:
sigma2_ost = s2_ost / (n-k)
print(sigma2_ost)

23.082272727272706


Вычислим значение функции распределения вероятности F:

In [18]:
F = sigma2_f / sigma2_ost
print(F)

5.5000534508126036


Поскольку анализ генеральной совокупности не проводился, то для оценки распределения вероятности будет использоваться таблица Стьюдента с количеством степеней свободы равным 27 (n-1).
Исходя из предположения, что измерение роста среди футболистов, хокеистов и штангистов проводились с одинаковой точностью, будем считать, что генеральная совокупность данных распределена нормально, поэтому при выборе значения (F_st) в таблице распределения вероятностей Стьюдента будем использовать половину значения заданной оценки уровня значимости (т.е. alpha = 0,025 и p = 0,975).

In [20]:
F_st = 2.0518

Поскольку вычисленное значение фукции распределения вероятности (F = 5.5001) больше табличного значения распределения вероятностей Стьюдента (F_st = 2.0518) различия средних значений роста среди футболистов, хокеистов и штангистов статистически значимо.

Вычислим эмпирическое корреляционное отношение:

In [21]:
eta2 = s2_st / s2
print(eta2)

0.30555761769498


Поскольку вычисленное эмпирическое корреляционное отношение больше 0.3 - различие среднего роста среди футболистов, хокеистов и штангистов является статистически значимым.