### Видеокурс по теории вероятностей и математической статистике

In [23]:
import numpy as np
import pandas as pd
from scipy import stats

#### Homework 8

**Задача 1**  
Используя данные о хоккеистах (скачать можно [здесь](https://habr.com/ru/post/301340/)), проверьте, является ли среди хоккеистов из Финляндии, Норвегии и Дании значимым отличие роста. В качестве ответа запишите 1, если является, и 0 иначе.

_Подсказка_: не забудьте предобработать данные (например, дублируются ли данные о конкретных игроках?).

**Решение:**

Загрузим рассматриваемый датасет

In [24]:
df = pd.read_csv('hockey_players.csv', encoding = 'unicode_escape')
df.head(4)

Unnamed: 0,year,country,no,name,position,side,height,weight,birth,club,age,cohort,bmi
0,2001,RUS,10,tverdovsky oleg,D,L,185,84.0,1976-05-18,anaheim mighty ducks,24.952772,1976,24.543462
1,2001,RUS,2,vichnevsky vitali,D,L,188,86.0,1980-03-18,anaheim mighty ducks,21.119781,1980,24.332277
2,2001,RUS,26,petrochinin evgeni,D,L,182,95.0,1976-02-07,severstal cherepovetal,25.229295,1976,28.680111
3,2001,RUS,28,zhdan alexander,D,R,178,85.0,1971-08-28,ak bars kazan,29.675565,1971,26.827421


Изучим информацию о датасете

In [25]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6292 entries, 0 to 6291
Data columns (total 13 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   year      6292 non-null   int64  
 1   country   6292 non-null   object 
 2   no        6292 non-null   int64  
 3   name      6292 non-null   object 
 4   position  6292 non-null   object 
 5   side      6291 non-null   object 
 6   height    6292 non-null   int64  
 7   weight    6292 non-null   float64
 8   birth     6292 non-null   object 
 9   club      6292 non-null   object 
 10  age       6292 non-null   float64
 11  cohort    6292 non-null   int64  
 12  bmi       6292 non-null   float64
dtypes: float64(3), int64(4), object(6)
memory usage: 639.2+ KB


In [26]:
df['country'].unique()

array(['RUS', 'AUT', 'BLR', 'CAN', 'CZE', 'FIN', 'GER', 'ITA', 'JPN',
       'LAT', 'NOR', 'SUI', 'SVK', 'SWE', 'UKR', 'USA', 'POL', 'SLO',
       'DEN', 'FRA', 'KAZ', 'HUN'], dtype=object)

Избавляемся от дубликатов и лишних признаков, оставляем только хоккеистов из Финляндии, Норвегии и Дании.

In [27]:
df.drop_duplicates(subset=['name'], inplace=True)
df = df[['year','country','name','height']]
df = df[(df['country'] == 'FIN') | (df['country'] == 'NOR') | (df['country'] == 'DEN')]
df.head()

Unnamed: 0,year,country,name,height
120,2001,FIN,kiprusoff marko,184
121,2001,FIN,nummelin petteri,178
122,2001,FIN,timonen kimmo,178
123,2001,FIN,niemi antti-jussi,185
124,2001,FIN,salo sami,192


Указанную в задании гипотезу можно проверить с помощью однофакторного дисперсионного анализа.

**Проверяем является ли среди хоккеистов из Финляндии, Норвегии и Дании значимым отличие роста**

- Нулевой гипотезой $H_0$ считаем гипотезу о равенстве среднего роста по каждой группе (хоккеисты определенной страны), а альтернативной гипотезой $Н_1$ отличие роста.  
- Для проверки гипотез в дисперсионном анализе используется **F-критерий Фишера**. Используемая статистика представляет из себя отношение дисперсии между уровнями к дисперсии внутри уровней.

Расчет статистики

In [28]:
height_fin = df.loc[(df['country'] == 'FIN'), 'height'].values
height_nor = df.loc[(df['country'] == 'NOR'), 'height'].values
height_den = df.loc[(df['country'] == 'DEN'), 'height'].values

In [29]:
statistics, pvalue = stats.f_oneway(height_fin, height_nor, height_den)
print(f"Значение статистики: {np.round(statistics, 8)}\nP-значение: {np.round(pvalue, 8)}")

Значение статистики: 3.5504111
P-значение: 0.02956354


**P-значение меньше уровня значимости** $\alpha = 0.05$, следовательно, нулевая $H_0$ гипотеза отвергается, а отличие роста между выборками хоккеистов из Финляндии, Норвегии и Дании признается значимым.