In [1]:
import json
import pandas as pd
import scipy.stats as sts

In [2]:
with open('match_stats.json', 'r') as f:
    df = pd.DataFrame.from_dict(pd.json_normalize(json.loads(f.read())))

В футболе принято считать, что играть дома проще, в блоке визуализации мы наблюдали некоторые такие закономерности, давайте теперь протестируем некоторые гипотезы, связанные с этим

Для начала проверим, чаще ли забивают голы дома

In [3]:
df['home.score'].mean()

1.5184936112979153

In [4]:
df['guest.score'].mean()

1.234028244788164

Проверим следующую гипотезу:

$$
\begin{aligned}
&H_0: \hspace{2mm} Score_h = Score_g \\
&H_1: \hspace{2mm} Score_h > Score_g 
\end{aligned}
$$

Для этого воспользуемся двухвыборочным t-тестом для независимых выборок

In [5]:
sts.ttest_ind(df['home.score'], df['guest.score'], alternative = 'greater')

Ttest_indResult(statistic=8.693154606655288, pvalue=2.250488094821158e-18)

Нулевая гипотеза отвергается на уровне значимости 1%

Из блока визуализации мы также помним про то, что команды в гостях чаще выбивают мяч. Проверим, были ли найденные зависимости статистически значимыми

Проверим следующую гипотезу:

$$
\begin{aligned}
&H_0: \hspace{2mm} Clearances_h = Clearances_g \\
&H_1: \hspace{2mm} Clearances_h < Clearances_g 
\end{aligned}
$$

Для этого аналогично воспользуемся двухвыборочным t-тестом для независимых выборок

In [8]:
sts.ttest_ind(df[~df['home.clearances'].isna()]['home.clearances'], df[~df['guest.clearances'].isna()]['guest.clearances'], alternative = 'less')

Ttest_indResult(statistic=-12.708230049159955, pvalue=1.1415945369177538e-36)

Нулевая гипотеза отвергается на уровне значимости 1%