In [1]:
from __future__ import division

import pandas as pd
import numpy as np
import scipy as sp

import scipy.stats

import toyplot as tp

### Множественная проверка гипотез

Задача ставится следующим образом: у нас есть набор наблюдений $1,...,n$, для каждого из которых мы сформулировали нулевую гипотезу. Далее, возможны 2 варианта:
- мы хотим одновременно проверить все гипотезы (Global hypothesis testing);
- мы хотим проверить каждую из $n$ гипотез в отдельности (Multiple testing).

### Одновременная проверка гипотез (Global hypothesis testing)

Для одновременной проверки гипотез обычно пользуются 2 методами:
- тест Фишера(Fisher's combination test);
- метод Бонферрони.

** Тест Фишера **

В основе лежит следующая идея: мы имеем на руках набор из $n$ p-values. Если сделать предположение о том, что они равномерно распределены на отрезке $[0, 1]$, то $-log(p_i) \sim Exp(1)$.

Тестовая статитистика имеет вид: 
$$ T = -2 \sum_{i=1}^{n} log \, p_{i}.$$

Распределение статистики - $\chi^2_{2n}$.

** Метод Бонферрони**

Метод достаточно прост: мы рассчитываем p-value для каждой гипотезы в отдельности и отвергаем "глобальную" нулевую гипотезу только в том случае, если минимальное p-value меньше чем $\alpha/n.$

** Какой метод выбрать? **

Метод Бонферрони учитывает только минимальное значение, из всех наблюдаемых p-values, поэтому он хорош тогда, когда мы проверяем против нескольких "существенных" эффектов, а вот тест Фишера в данном случае покажет себя не слишком хорошо.


Напротив, когда мы рассматриваем гипотезу, в которой проверяется систематический, но небольшой эффект - хорошо себя покажет тест Фишера, и плохо - метод Бонферрони.

### Последовательная проверка гипотез (Multiple hypothesis testing)

<img src="xkcd-significant.png">

Отклонение нулевой гипотезы - это хорошо, однако нам также хотелось бы знать ,какие именно нулевые гипотезы не прошли проверку. Тут и используется последовательная проверка гипотез.

** Метод Бонферрони **

Уже нам знаком, однако вместо сравнения минимального p-value, мы тестируем последовательно все с уровнем значимости $\alpha/n$. Распостраненное название данного метода - Familywise error rate test.

** Метод Бенжамина-Хокберга (Benjamin and Hochberg) **

Для понимания сути метода нам придется ввести такое понятие как FDP (false discovery proportion):
$$ FDP = \frac{V}{R},$$
где $V$ - число ложных отклонений, $R$ - общее число отклонений.
Метод позволяет контроллировать ожидание $FDP$, так чтобы оно было ниже некоторой априорной величины False Discovery Rate:
$$ \frac{E[V]}{max(R,1)} <q. $$

Процедуру можно описать следующим образом:
- отсортировать все p-values по возрастанию;
- найти  $p_i : p_i \leq q\frac{i}{n};$
- отклонить все гипотезы до $p_i.$

### Пример

В нашем наборе данных у нас есть только фамилия игрока. Чтобы исключить группировку для однофамильцев, мы в качестве уникального ключа будем считать пару "фамилия - имя команды".

In [3]:
df = pd.read_csv('data/free_throws.csv', names=["away", "home", "team", "player", "score"])
df["at_home"] = df["home"] == df["team"]
df.head()

Unnamed: 0,away,home,team,player,score,at_home
0,HOU,LAL,LAL,Bryant,0,True
1,HOU,LAL,LAL,Bryant,1,True
2,HOU,LAL,LAL,Fisher,1,True
3,HOU,LAL,LAL,Fisher,1,True
4,HOU,LAL,LAL,Bryant,1,True


Сгруппируем данные по факту игры "дома".

In [4]:
df.groupby("at_home").mean()

Unnamed: 0_level_0,score
at_home,Unnamed: 1_level_1
False,0.759678
True,0.761635


Пользуясь средствами pandas, можно легко получить статистику по каждому из игроков:

In [5]:
sdf = pd.pivot_table(df, index=["player", "team"], columns="at_home", values=["score"], 
               aggfunc=[len, sum], fill_value=0).reset_index()
sdf.columns = ['player', 'team', 'atm_away', 'atm_home', 'score_away', 'score_home']

sdf['atm_total'] = sdf['atm_away'] + sdf['atm_home']
sdf['score_total'] = sdf['score_away'] + sdf['score_home']

sdf.sample(10)

Unnamed: 0,player,team,atm_away,atm_home,score_away,score_home,atm_total,score_total
512,Graham,CLE,31,5,24,5,36,29
548,Harangody,CLE,16,14,13,10,30,23
11,Afflalo,DET,72,86,61,65,158,126
1342,Walker,NYK,68,43,49,36,111,85
549,Hardaway,MIA,0,9,0,8,9,8
1295,Tolliver,GSW,63,71,45,58,134,103
654,Iverson,DEN,412,410,324,339,822,663
1411,Williams,MIA,46,34,38,31,80,69
124,Bayless,NOH,3,14,1,12,17,13
391,Dupree,SEA,0,2,0,2,2,2


Теперь можем применить уже знакомый нам тест о значении доли для каждого из $n$ игроков - $p_i$.

Нулевая гипотеза примет вид: не важно, играет ли команда дома или гостях, ожидаемое число попаданий для каждого игрока постоянно. Вид нулевой гипотезы для каждого из игроков нам известен:

$$ H_{0,i}: p_{i,h} = p_{i,a}, $$
$$ H_{1,i}: p_{i,h} \neq p_{i,a}. $$

Тестовая статистика имеет вид:

$$Z = \frac{\hat{p}_h-\hat{p}_a}{\sqrt{\hat{p}(1-\hat{p})(\frac{1}{n_h}+\frac{1}{n_a})}}.$$

Далее, оставим игроков, для которых есть хотя бы 30 наблюдений:

In [8]:
data = sdf.query('atm_total > 30').copy()
len(data)

957

In [9]:
data['p_home'] = data['score_home'] / data['atm_home']
data['p_away'] = data['score_away'] / data['atm_away']
data['p_ovr'] = (data['score_total']) / (data['atm_total'])

# two-sided
data['zval'] = (data['p_home'] - data['p_away']) / np.sqrt(data['p_ovr'] * (1-data['p_ovr']) * (1/data['atm_away'] + 1/data['atm_home']))
data['pval'] = 2*(1-sp.stats.norm.cdf(np.abs(data['zval'])))

In [10]:
data.sample(10)

Unnamed: 0,player,team,atm_away,atm_home,score_away,score_home,atm_total,score_total,p_home,p_away,p_ovr,zval,pval
1347,Wallace,CLE,43,65,21,25,108,46,0.384615,0.488372,0.425926,-1.067442,0.285772
503,Gooden,SAS,39,18,30,15,57,45,0.833333,0.769231,0.789474,0.551804,0.581083
678,Jackson,NOH,15,34,13,27,49,40,0.794118,0.866667,0.816327,-0.604454,0.545542
639,Humphries,NJN,307,304,215,220,611,435,0.723684,0.700326,0.711948,0.637485,0.523809
246,Carter,DAL,48,67,42,53,115,95,0.791045,0.875,0.826087,-1.171326,0.241468
763,Kidd,NJN,50,61,37,54,111,91,0.885246,0.74,0.81982,1.980978,0.047594
396,Ebanks,LAL,15,43,12,29,58,41,0.674419,0.8,0.706897,-0.920032,0.357556
611,Hollins,CLE,107,111,70,74,218,144,0.666667,0.654206,0.66055,0.19424,0.845988
332,Davis,GSW,192,232,158,160,424,318,0.689655,0.822917,0.75,-3.154392,0.001608
520,Gray,TOR,17,30,9,16,47,25,0.533333,0.529412,0.531915,0.025889,0.979346


In [11]:
canvas = tp.Canvas(800, 300)
ax1 = canvas.axes(grid=(1, 2, 0), label="Histogram p-values")
hist_p = ax1.bars(np.histogram(data["pval"], bins=50, normed=True), color="steelblue")
hisp_p_density = ax1.plot([0, 1], [1, 1], color="red")
ax2 = canvas.axes(grid=(1, 2, 1), label="Histogram z-values")
hist_z = ax2.bars(np.histogram(data["zval"], bins=50, normed=True), color="orange")
x = np.linspace(-3, 3, 200)
hisp_z_density = ax2.plot(x, sp.stats.norm.pdf(x), color="red")

Теперь мы готовы **одновременно проверить нулевую гипотезу**: как мы помним, для этого есть два основных метода:
* метод Фишера;
* метод Бонферрони.

In [13]:
T = -2 * np.sum(np.log(data["pval"]))
print 'p-value Fisher: {:.3e}'.format(1 - sp.stats.chi2.cdf(T, 2*len(data)))

p-value Fisher: 1.074e-04


In [14]:
print '"p-value" Bonferroni: {:.3e}'.format(min(1, data["pval"].min() * len(data)))

"p-value" Bonferroni: 1.000e+00


Как отмечалось выше, в подобной ситуации лучше воспользоваться тестом Фишера, о чем и говорит результат.

**Последовательная проверка**

In [21]:
from statsmodels.sandbox.stats.multicomp import multipletests

In [23]:
alpha = 0.05
data["reject_bc"] = 1*(data["pval"] < alpha / len(data))
print 'Number of rejections: {}'.format(data["reject_bc"].sum())

Number of rejections: 0


По сути, тест Бонферрони в данном сулчае эквивалентен одноименно методу при одновременной проверке, что и потдтверждается результатами.

In [26]:
is_reject, corrected_pvals, _, _ = multipletests(data["pval"], alpha=0.1, method='fdr_bh')

In [27]:
data["reject_fdr"] = 1*is_reject
data["pval_fdr"] = corrected_pvals
print 'Number of rejections: {}'.format(data["reject_fdr"].sum())

Number of rejections: 0


Несмотря на то, что тест асимптотически более мощный, ни одну индивидуальную гипотезу отвергнуть мы не смогли.