In [1]:
import numpy as np
import pandas as pd
from scipy import stats
import matplotlib.pyplot as plt
%matplotlib inline

### Тест хи-квадрат для таблицы сопряженности

Таблица сопряженности - способ представления исходных данных с группировкой по уровням некоторых категориальных признаков.

In [2]:
df = pd.read_csv('data/RogerFederer.csv')

In [3]:
npoints = df['player1 total points total']
points = df['player1 total points won'] / npoints
aces = df['player1 aces'] / npoints

In [4]:
df_bis = pd.DataFrame({'points': points,
                       'aces': aces}).dropna()
df_bis.tail()

Unnamed: 0,aces,points
1173,0.02439,0.585366
1174,0.039855,0.471014
1175,0.046512,0.639535
1176,0.020202,0.606061
1177,0.069364,0.531792


In [5]:
df_bis['result'] = df_bis['points'] > df_bis['points'].median()
df_bis['manyaces'] = df_bis['aces'] > df_bis['aces'].median()

In [6]:
pd.crosstab(df_bis['result'], df_bis['manyaces'])

manyaces,False,True
result,Unnamed: 1_level_1,Unnamed: 2_level_1
False,300,214
True,214,299


Фактически, это уже знакомый нам тест Хи-Квадрат Пирсона, в котором ожидаемые частоты рассчитаны без учета группировочного признака. Соответственно, нулевая гипотеза: данные независимы, альтернативная гипотеза: между данными есть некоторая форма зависимости.

In [8]:
stats.chi2_contingency(_)

(27.809858855369555,
 1.3384233799633629e-07,
 1,
 array([[ 257.25024343,  256.74975657],
        [ 256.74975657,  256.25024343]]))

### H-тест Краскелла - Уоллиса

Используется для проверки гипотезы о том, что $k$ выборок получены из одного и того же распределения, иными словами: $$F_{X_1}(x) = ... = F_{X_k} (x).$$

Типичное использование проверка гипотезы о том, что медианы во всех $k$ группах равны.

In [9]:
data = pd.read_csv('data/salaries.csv')

In [10]:
stats.kruskal(data['Salary2013'], data['Salary2012'])

KruskalResult(statistic=179.30976166645513, pvalue=6.8569173312853378e-41)

Важно помнить, что тест не говорит нам о том, какие именно из сравниваемых групп отличаются!

### Тест Вилкоксона (Wlicoxon signed-rank test) 

Данный тест используется для проверки гипотезы о том, что парные наблюдения получены из одного и того же распределения. Тест использует нормальную аппроксимацию, поэтому требуется размер выборок > 30.

In [14]:
stats.wilcoxon(data['Salary2012'], data['Salary2011'])

WilcoxonResult(statistic=482663968.0, pvalue=8.6931343890220472e-99)

### U-тест Манна - Уитни

Используется для проверки гипотезы о том, что 2 выборки получены из одного распределения. Тест использует нормальную аппроксимацию, поэтому требуется размер выборок > 30.

In [15]:
stats.mannwhitneyu(data['Salary2012'], data['Salary2011'])

MannwhitneyuResult(statistic=1354498074.0, pvalue=0.013068711570631091)