In [1]:
from __future__ import division

import pandas as pd
import numpy as np
import scipy as sp

import scipy.stats
import matplotlib.pyplot as plt
import toyplot as tp

### Множественная проверка гипотез

Задача ставится следующим образом: у нас есть набор наблюдений $1,...,n$, для каждого из которых мы сформулировали нулевую гипотезу. Далее, возможны 2 варианта:
- мы хотим одновременно проверить все гипотезы (Global hypothesis testing);
- мы хотим проверить каждую из $n$ гипотез в отдельности (Multiple testing).

### Одновременная проверка гипотез (Global hypothesis testing)

** Тест Фишера **

В основе лежит следующая идея: мы имеем на руках набор из $n$ p-values. Если сделать предположение о том, что они равномерно распределены на отрезке $[0, 1]$, то $-log(p_i) \sim Exp(1)$.

Тестовая статитистика имеет вид: 
$$ T = -2 \sum_{i=1}^{n} log \, p_{i}.$$

Распределение статистики - $\chi^2_{2n}$.

### Последовательная проверка гипотез (Multiple hypothesis testing)

Отклонение нулевой гипотезы - это хорошо, однако нам также хотелось бы знать ,какие именно нулевые гипотезы не прошли проверку. Тут и используется последовательная проверка гипотез.

** Метод Бонферрони **

Метод достаточно прост: мы рассчитываем p-value для каждой гипотезы в отдельности и отвергаем "глобальную" нулевую гипотезу только в том случае, если минимальное p-value меньше чем $\alpha/n.$

** Метод Бенжамина-Хокберга (Benjamin and Hochberg) **

Для понимания сути метода нам придется ввести такое понятие как FDP (false discovery proportion):
$$ FDP = \frac{V}{R},$$
где $V$ - число ложных отклонений, $R$ - общее число отклонений.
Метод позволяет контроллировать ожидание $FDP$, так чтобы оно было ниже некоторой априорной величины False Discovery Rate:
$$ \frac{E[V]}{max(R,1)} <q. $$

Процедуру можно описать следующим образом:
- отсортировать все p-values по возрастанию;
- найти  $p_i : p_i \leq q\frac{i}{n};$
- отклонить все гипотезы до $p_i.$

### Пример

В нашем наборе данных у нас есть только фамилия игрока. Чтобы исключить группировку для однофамильцев, мы в качестве уникального ключа будем считать пару "фамилия - имя команды".

In [2]:
df = pd.read_csv('free_throws.csv', names=["away", "home", "team", "player", "score"])
df["at_home"] = df["home"] == df["team"]
df.head()

Unnamed: 0,away,home,team,player,score,at_home
0,HOU,LAL,LAL,Bryant,0,True
1,HOU,LAL,LAL,Bryant,1,True
2,HOU,LAL,LAL,Fisher,1,True
3,HOU,LAL,LAL,Fisher,1,True
4,HOU,LAL,LAL,Bryant,1,True


Сгруппируем данные по факту игры "дома".

In [3]:
df.groupby("at_home").mean()

Unnamed: 0_level_0,score
at_home,Unnamed: 1_level_1
False,0.759678
True,0.761635


Пользуясь средствами pandas, можно легко получить статистику по каждому из игроков:

In [4]:
sdf = pd.pivot_table(df, index=["player", "team"], columns="at_home", values=["score"], 
               aggfunc=[len, sum], fill_value=0).reset_index()
sdf.columns = ['player', 'team', 'atm_away', 'atm_home', 'score_away', 'score_home']

sdf['atm_total'] = sdf['atm_away'] + sdf['atm_home']
sdf['score_total'] = sdf['score_away'] + sdf['score_home']

sdf.head(10)

Unnamed: 0,player,team,atm_away,atm_home,score_away,score_home,atm_total,score_total
0,A. Brown,CHA,0,2,0,2,2,2
1,A. Brown,MEM,16,6,7,3,22,10
2,A. Johnson,ATL,14,18,12,15,32,27
3,A. Johnson,TOR,63,57,44,38,120,82
4,Abdur-Rahim,SAC,4,0,4,0,4,4
5,Acker,DET,2,0,1,0,2,1
6,Acker,LAC,6,2,2,2,8,4
7,Adams,TOR,6,0,3,0,6,3
8,Adrien,GSW,12,7,7,4,19,11
9,Adrien,HOU,6,6,3,4,12,7


Теперь можем применить уже знакомый нам тест о значении доли для каждого из $n$ игроков - $p_i$.

Нулевая гипотеза примет вид: не важно, играет ли команда дома или гостях, ожидаемое число попаданий для каждого игрока постоянно. Вид нулевой гипотезы для каждого из игроков нам известен:

$$ H_{0,i}: p_{i,h} = p_{i,a}, $$
$$ H_{1,i}: p_{i,h} \neq p_{i,a}. $$

Тестовая статистика имеет вид:

$$Z = \frac{\hat{p}_h-\hat{p}_a}{\sqrt{\hat{p}(1-\hat{p})(\frac{1}{n_h}+\frac{1}{n_a})}}.$$

Далее, оставим игроков, для которых есть хотя бы 30 наблюдений:

In [5]:
data = sdf.query('atm_total > 30').copy()
len(data)

957

In [6]:
data['p_home'] = data['score_home'] / data['atm_home']
data['p_away'] = data['score_away'] / data['atm_away']
data['p_ovr'] = (data['score_total']) / (data['atm_total'])

# two-sided
data['zval'] = (data['p_home'] - data['p_away']) / np.sqrt(data['p_ovr'] * (1-data['p_ovr']) * (1/data['atm_away'] + 1/data['atm_home']))
data['pval'] = 2*(1-sp.stats.norm.cdf(np.abs(data['zval'])))

In [7]:
data.head(10)

Unnamed: 0,player,team,atm_away,atm_home,score_away,score_home,atm_total,score_total,p_home,p_away,p_ovr,zval,pval
2,A. Johnson,ATL,14,18,12,15,32,27,0.833333,0.857143,0.84375,-0.184017,0.854
3,A. Johnson,TOR,63,57,44,38,120,82,0.666667,0.698413,0.683333,-0.373327,0.708905
10,Afflalo,DEN,227,274,182,218,501,400,0.79562,0.801762,0.798403,-0.17057,0.864562
11,Afflalo,DET,72,86,61,65,158,126,0.755814,0.847222,0.797468,-1.423866,0.154485
14,Ahearn,MIA,19,12,18,12,31,30,1.0,0.947368,0.967742,0.807856,0.419173
21,Aldridge,POR,797,839,606,671,1636,1277,0.799762,0.760351,0.780562,1.925169,0.054208
23,Alexander,MIL,36,47,24,34,83,58,0.723404,0.666667,0.698795,0.558375,0.576588
24,Allen,BOS,153,180,140,155,333,295,0.861111,0.915033,0.885886,-1.542282,0.123005
27,Allen,MEM,189,168,143,134,357,277,0.797619,0.756614,0.77591,0.927416,0.35371
33,Almond,UTA,16,16,13,12,32,25,0.75,0.8125,0.78125,-0.427618,0.668929


In [14]:
canvas = tp.Canvas(800, 300)
ax1 = canvas.axes(grid=(1, 2, 0), label="Histogram p-values")
hist_p = ax1.bars(np.histogram(data["pval"], bins=50, normed=True), color="steelblue")
hisp_p_density = ax1.plot([0, 1], [1, 1], color="red")
ax2 = canvas.axes(grid=(1, 2, 1), label="Histogram z-values")
hist_z = ax2.bars(np.histogram(data["zval"], bins=50, normed=True), color="orange")
x = np.linspace(-3, 3, 200)
hisp_z_density = ax2.plot(x, sp.stats.norm.pdf(x), color="red")

Используем метода Фишера:

In [9]:
T = -2 * np.sum(np.log(data["pval"]))
print 'p-value Fisher: {:.3e}'.format(1 - sp.stats.chi2.cdf(T, 2*len(data)))

p-value Fisher: 1.074e-04


Что будет, если мы применим поправку Бонферрони?

**Последовательная проверка**

In [10]:
from statsmodels.sandbox.stats.multicomp import multipletests

In [11]:
alpha = 0.05
data["reject_bc"] = 1*(data["pval"] < alpha / len(data))
print 'Number of rejections: {}'.format(data["reject_bc"].sum())

Number of rejections: 0


По сути, тест Бонферрони в данном сулчае эквивалентен одноименно методу при одновременной проверке, что и потдтверждается результатами.

In [12]:
is_reject, corrected_pvals, _, _ = multipletests(data["pval"], alpha=0.1, method='fdr_bh')

In [13]:
data["reject_fdr"] = 1*is_reject
data["pval_fdr"] = corrected_pvals
print 'Number of rejections: {}'.format(data["reject_fdr"].sum())

Number of rejections: 0


Несмотря на то, что тест асимптотически более мощный, ни одну индивидуальную гипотезу отвергнуть мы не смогли.