# Множественная проверка гипотез
### Вопрос 1
Выберите задачи, в которых обязательно нужно применять поправку на множественную проверку гипотез

 * Попарное сравнение средних большого количества выборок
 * Локализация различий в активности мозга испытуемых в разных экспериментальных условиях
 * Сравнение эффективности лечения пациентов в подгруппах по большому количеству признаков
 * ~~Выбор инвестиционных фондов с помощью сравнения доходности каждого из них с доходностью базового актива по нескольким историческим периодам~~
 
### Вопрос 2
Классификатор C4.5 и три его модификации: с оптимизацией гиперпараметра m, гиперпараметра cf и с одновременной оптимизацией обоих гиперпараметров. Эти четыре классификатора сравнивались на 14 наборах данных. На каждом датасете был посчитан AUC каждого классификатора. Данные записаны в файле:

Используя критерий знаковых рангов, проведите попарное сравнение каждого классификатора с каждым. Выберите два классификатора, различие между которыми наиболее статистически значимо.

### Вопрос 3
Сколько статистически значимых на уровне 0.05 различий мы обнаружили?

### Вопрос 4
Судя по данным из предыдущего опроса, настройка какого из параметров классификатора даёт более значимое увеличение качества?

In [8]:
import pandas as pd
from scipy import stats

In [7]:
df = pd.read_csv('AUCs.txt', sep = '\t').set_index('Unnamed: 0')

In [20]:
results = []
for clf1 in df.columns:
    for clf2 in df.columns:
        if clf1 >= clf2:
            continue
        p_value = stats.wilcoxon(df[clf1], df[clf2]).pvalue
        statistic = stats.wilcoxon(df[clf1], df[clf2]).statistic
        results.append({
                'clf1': clf1,
                'clf2': clf2,
                'p_value': p_value,
                'statistic': statistic
            }
        )

In [24]:
cmp_df = pd.DataFrame(results).sort_values('p_value')
cmp_df

Unnamed: 0,clf1,clf2,p_value,statistic
0,C4.5,C4.5+m,0.010757,6.5
2,C4.5,C4.5+m+cf,0.015906,11.0
5,C4.5+cf,C4.5+m+cf,0.022909,10.0
4,C4.5+cf,C4.5+m,0.046333,17.0
3,C4.5+m,C4.5+m+cf,0.327826,22.0
1,C4.5,C4.5+cf,0.861262,43.0


### Вопрос 5
Сравнивая 4 классификатора между собой, мы проверили 6 гипотез. Давайте сделаем поправку на множественную проверку. Начнём с метода Холма. Сколько гипотез можно отвергнуть на уровне значимости 0.05 после поправки этим методом?

In [22]:
from statsmodels.sandbox.stats.multicomp import multipletests 

In [25]:
reject, p_corrected, a1, a2 = multipletests(cmp_df.p_value, 
                                            alpha = 0.05, 
                                            method = 'holm') 

In [26]:
cmp_df['p_value_holm'] = p_corrected
cmp_df['reject_holm'] = reject

In [27]:
cmp_df

Unnamed: 0,clf1,clf2,p_value,statistic,p_value_holm,reject_holm
0,C4.5,C4.5+m,0.010757,6.5,0.064543,False
2,C4.5,C4.5+m+cf,0.015906,11.0,0.079532,False
5,C4.5+cf,C4.5+m+cf,0.022909,10.0,0.091636,False
4,C4.5+cf,C4.5+m,0.046333,17.0,0.138998,False
3,C4.5+m,C4.5+m+cf,0.327826,22.0,0.655651,False
1,C4.5,C4.5+cf,0.861262,43.0,0.861262,False


### Вопрос 6
Сколько гипотез можно отвергнуть на уровне значимости 0.05 после поправки методом Бенджамини-Хохберга?

In [30]:
reject, p_corrected, a1, a2 = multipletests(cmp_df.p_value, 
                                            alpha = 0.05, 
                                            method = 'fdr_bh') 

In [31]:
cmp_df['p_value_bh'] = p_corrected
cmp_df['reject_bh'] = reject

In [32]:
cmp_df

Unnamed: 0,clf1,clf2,p_value,statistic,p_value_holm,reject_holm,p_value_bh,reject_bh
0,C4.5,C4.5+m,0.010757,6.5,0.064543,False,0.045818,True
2,C4.5,C4.5+m+cf,0.015906,11.0,0.079532,False,0.045818,True
5,C4.5+cf,C4.5+m+cf,0.022909,10.0,0.091636,False,0.045818,True
4,C4.5+cf,C4.5+m,0.046333,17.0,0.138998,False,0.069499,False
3,C4.5+m,C4.5+m+cf,0.327826,22.0,0.655651,False,0.393391,False
1,C4.5,C4.5+cf,0.861262,43.0,0.861262,False,0.861262,False


### Вопрос 7
Насколько корректно, на ваш взгляд, применение метода Бенджамини-Хохберга в этой задаче?

 * ~~Всегда корректно, это же метод Бенджамини-Хохберга~~
 * ~~Корректно: статистики, соответствующие разным гипотезам, независимы, так что предположения метода Бенджамини-Хохберга выполняются~~
 * Некорректно: статистики, соответствующие разным гипотезам, зависимы, так что предположения метода Бенджамини-Хохберга не выполняются
 
### Вопрос 8
Мы подозреваем, что в проведённом с C4.5 эксперименте на самом деле классификаторы сильнее отличаются друг от друга, просто нам не удалось это заметить. Что можно сделать, чтобы увеличить вероятность обнаружения различий, если они действительно существуют?

 * Взять больше датасетов
 * ~~Закрыть глаза на эффект множественной проверки гипотез и не делать никакой поправки~~
 * ~~Попробовать настроить больше гиперпараметров~~