# Семинар 9. Проверка гипотез: непараметрические критерии

*Где используется проверка гипотез?*

 * в медицине для изучения эффективности клинических испытаний
 * маркетологами, менеджерами, дизайнерами при A/B тестировании
 * в машинном обучении для отбора признаков
 * в курсах по математической статистике и анализу данных

*Теперь давайте вспомним!*

**Статистическая гипотеза** — это определённое предположение о распределении вероятностей, лежащем в основе наблюдаемой выборки данных.

План на сегодняшний семинар:

* Повторить суть непараметрического оценивания
* Таблица сопряженности и хи-квадрат
* Критерий Манна-Уитни
* Критерий Уилкоксона
* Критерий Знаков

**Проверка статистической гипотезы** — это процесс принятия решения о том, противоречит ли рассматриваемая статистическая гипотеза наблюдаемой выборке данных.

**Статистический тест или  критерий** — строгое математическое правило, по которому принимается или отвергается статистическая гипотеза.

Если гипотез всего две, то одну из них принято называть основной, а другую — альтернативой, или отклонением от основной гипотезы.

$$ H_0 - \textit{основная гипотеза}$$ 
$$ H_a - \textit{альтернативная гипотеза}$$



Типы гипотез:

* Выбор из нескольких простых гипотез:

$$ H_1: \{F = F_1\} $$
$$ H_2: \{F = F_2\} $$

* Простая основная гипотеза и сложная альтернатива:

$$ H_1: \{F = F_1\} $$
$$ H_2: \{F \neq F_1\} $$

* Сложная основная гипотеза и сложная альтернатива:

$$ H_1: \{F \in \mathbb{F}\} $$
$$ H_2: \{F \notin \mathbb{F}\} $$

* а также гипотезы однородности, независимости и случайности выборок

**Важно помнить:**

* Статистический тест не отвечает на вопрос, верна ли гипотеза, а выясняет противоречат ли имеющиеся данные выдвинутой гипотезе.

* Вывод «данные противоречат гипотезе» всегда весомее, чем вывод «данные не противоречат гипотезе»

In [None]:
#подгружаем все необходимые библиотеки
import numpy as np
import pandas as pd
import statsmodels as sm
from scipy import stats
import warnings
warnings.filterwarnings('ignore')

## Критерий согласия хи-квадрат

При анализе данных у нас может возникать вопрос о том, как наши наблюдения распределены по каким-то категориям. Например, на сколько больше студентов на коммерции по сравнению с бюджетниками на двух разных факультетах? Или как соотносятся пропорции сдавших и несдавших экзамен по Python в разных группах?
При такой постановке вопроса нас не интересуют какие-то количественные характеристики для конкретного объекта или выборки в целом: нас интересует только принадлежность объекта к той или иной группе. И в таком случае, когда нас в первую очередь интересует соотношение пропорций в генеральной совокупности, мы будем использовать критерий согласия хи-квадрат.

Данный критерий реализован с помощью функции chisquare в модуле stats:
    
* **stats.chisquare(obs, exp)** 

В эту функцию мы передаем два аргумента:

* obs — фактическая частота попадания в ту или иную подгруппу
* exp — ожидаемая частота.

Возможно, вы знакомы с Менделем и его экспериментами с селекцией гороха: эта история отлично подойдет для иллюстрации применения критерия согласия хи-квадрат. 

Краткий экскурс в тему: Мендель вывел теоретический закон распределения частот видов семян, и в 20-м веке было огромное количество исследований, которые основывались на проверке близости этого закона к реальной жизни как раз с помощью критерия согласия хи-квадрата. История была столь популярна, что на ее тему написал статьи даже известный математик - академик Колмогоров.

Давайте и мы проверим, что там происходило с горохом!

В экспериментах с селекцией гороха Мендель наблюдал частоты различных видов семян, получаемых при скрещивании растений с круглыми желтыми семенами и растений с морщинистыми зелеными семенами. Эти данные и значения теоретических вероятностей, определяемые в соответствии с законом Менделя, приведены в следующей таблице:

| Тип семян            | Частота | Вероятность |
|:-------------------- |:-------:| -----------:|
| Круглые и желтые     | 315/556 | 9/16        |
| Морщинистые и желтые | 101/556 | 3/16        |
| Круглые и зеленые    | 108/556 | 3/16        |
| Морщинистые и зеленые| 32/556  | 1/16        |

Необходимо проверить гипотезу $H_0$ о согласованности частот с теоретическими вероятностями при помощи критерия хи-квадрат.

In [None]:
# создаем массивы с реальными частотами (точнее, долями) и с теоретическими вероятностями
obs = np.array([315/556, 101/556, 108/556, 32/556]) #реальные доли - левый столбец в таблице
exp = np.array([9/16, 3/16, 3/16, 1/16]) #теоретические вероятности - правый столбец в таблице

Ранее мы посмотрели, что в функцию для реализации критерия согласия мы передаем фактические частоты, а у нас только доли. Чтобы получить из них частоты, мы умножим каждую долю на общее количество семян:

In [None]:
obs = obs*556 #рассчитали реальные частоты
exp = exp*556 #рассчитали ожидаемые частоты

In [None]:
# запускаем функцию для критерия хи-квадрат
stats.chisquare(obs, exp) 

Мы видим, что у нас получилось очень большое значение p-value: оно свидетельствует о том, что мы не отвергаем нулевую гипотезу. Значит, закон Менделя работает!

## Задача 1

У некоторого преподавателя НИУ ВШЭ есть предположение, что 25% студентов сдают ДЗ заранее, 60% в последний момент, а 15% вовсе забывают о домашнем задании. После первого ДЗ на курсе "Введение в Data Science" было выявлено, что из 330 студентов 60 сдали ДЗ заранее, 200 в последний момент, а 70 - вовсе забыли о ДЗ. Проверьте гипотезу о том, что предположение преподавателя о теоретическом распределении вероятностей верное.

In [None]:
#YOUR CODE

# Критерий независимости хи-квадрат Пирсона (критерий независимости номинальных признаков Пирсона)

Еще один критерий - критерий независимости хи-квадрат Пирсона - нужен нам для того, чтобы проверять наличие взаимосвязи между двумя признаками.

Пусть у нас есть пациенты, которых проверяли на предмет наличия сердечных заболеваний. И мы хотим проверить, есть ли взаимосвязь у пола пациента и наличия у него заболевания. Нулевая гипотеза заключается в том, что признаки независимы.
* Пол записан в признаке sex (1-мужчины, 0-женщины)
* Наличие заболевания записано в признаке target (1 - заболевание обнаружено, 0 - нет)

In [None]:
df = pd.read_csv('heart.csv')
df.head()

В первую очередь построим таблицу сопряженности:

In [None]:
t = df.groupby('sex')['target'].value_counts().unstack()
t

Теперь рассчитаем суммарное количество здоровых и больных, а также общую сумму:

In [None]:
n_0 = t[0].sum()
n_1 = t[1].sum()
n_sum = n_0 + n_1
print(n_0, n_1, n_sum)

Рассчитаем доли:

In [None]:
p_0 = n_0 / n_sum
p_1 = n_1 / n_sum
print(p_0, p_1)

Рассчитаем суммарное количество мужчин и женщин:

In [None]:
n_w = t.iloc[0].sum()
n_m = t.iloc[1].sum()
print(n_w, n_m)

Рассчитываем ожидаемые в случае независимости признаков частоты для мужчин (здоровых и больных) и для женщин (здоровых и больных):

In [None]:
e0_women = n_w * p_0
e1_women = n_w * p_1
e0_men = n_m * p_0
e1_men = n_m * p_1

In [None]:
print(e0_women, e1_women, e0_men, e1_men)

Составим таблицу ожидаемых частот:

In [None]:
t_e = np.array([[e0_women, e1_women], [e0_men, e1_men]])
t_e

Рассчитываем значение статистики:

$
\chi^2 = \sum{\frac{(f_o - f_e)^2}{f_e}}
$

В данной формуле $f_o$ - это наблюдаемые частоты, а $f_e$ - ожидаемые частоты

In [None]:
chi_square = ((t - t_e)**2/t_e).sum().sum() #суммируем сначала по полу, потом в целом
print(chi_square)

Рассчитаем значение количества степей свободы:

$
dof = (R - 1)(C - 1)
$

В формуле R - количество строк нашей таблицы, а C - количество столбцов.

In [None]:
dof = (t.shape[0] - 1) * (t.shape[1] - 1)
dof

_Примечание: количество степеней свободы - это количество значений в итоговом вычислении статистики, способных варьироваться. Смысл в том, что при разном значении степеней свободы будет меняться форма распределения статистик хи-квадрат. А значит и значения критерия, отсекающие определенную пропорцию распределения, будут варьироваться.(с)_

In [None]:
pvalue = 1-stats.chi2.cdf(chi_square, df=1)
print(pvalue)

Можно было бы рассчитать и автоматически:

In [None]:
stats.chi2_contingency(t, correction=False)

Время решить задачу самостоятельно! (ну почти)

## Задача 2 (парадокс Симпсона)

Не забывайте, что мы должны не только уметь применять функции из библиотек, но еще надо понимать, какие действия с данными корректны, а какие нет.

Перед вами результаты медицинских исследований. Из 1650 мужчин, испытывающих лекарство, выздоровели 770, из 223 не принимавших выздоровели 88. Из 245 принимавших женщин — 165, из 750 не принимавших — 440.

Необходимо проверить следующее:
1. Влияет ли лекарство на мужчин?
2. Влияет ли лекарство на женщин? 
3. Влияет ли лекарство на людей обоих полов в целом?

Запишем данные в аккуратную табличку. Пусть $A$ — принимавшие лекарство, $\overline{A}$ — не принимавшие лекарство, $B$ — выздоровевшие, $\overline{B}$ — не выздоровевшие.

<!--<img width="60%" src="pics/pic2.png">-->
<table>
<tr><td>
    
|Мужчины| $B$ |  $\overline{B}$|
|--|--|--|
|$A$| 770 | 880 |
|$\overline{A}$| 88 | 135 |

</td><td>
    
|Женщины| $B$ |  $\overline{B}$|
|--|--|--|
|$A$| 165 | 80 |
|$\overline{A}$| 440 | 310 |

</td><td>

|Вместе| $B$ |  $\overline{B}$|
|--|--|--|
|$A$| 935 | 960 |
|$\overline{A}$| 528 | 445 |

</td></tr> </table>

### Есть ли эффект от лекарства у мужчин? 

Заметим, что среди принимавших лекарство мужчин доля выздоровевших больше, чем среди мужчин, не принимавших лекарство:

$$\frac{770}{770 + 880} \approx 0.467 \qquad > \qquad 0.395 \approx \frac{88}{88 + 135}.$$
  
Проверим, значимо ли это различие.

In [None]:
#создаем массивы для наших данных 

men = np.array([[770,880],[88,135]]) #частоты для мужчин
women = np.array([[165,80],[440,310]]) #частоты для женщин
both = men + women #складываем частоты для женщин и для мужчин, чтобы получить суммарные частоты

In [None]:
# можно реализовать критерий вручную 

n = np.sum(men) # количество испытуемых среди мужчин
n1,n2 = np.sum(men,axis=1) # количество испытуемых, принимавших и не принимавших лекарство среди мужчин
p = np.sum(men,axis=0)/n # вероятности попасть в (B) и (not B)
exmen = np.array([p*n1,p*n2]) # ожидаемые количества в каждой ячейке

statistic = np.sum((men - exmen)**2/exmen) #рассчитываем значение статистики
pvalue = 1-stats.chi2.cdf(statistic, df=1) #значение p-value

print("statistic = ", statistic)
print("p-value = ", pvalue)

In [None]:
stats.chi2_contingency(men, correction=False)

### Есть ли эффект от лекарства у женщин? 

In [None]:
#YOUR CODE


Для женщин соответствующие доли равны $0.673>0.587$ - среди принимавших лекарство доля выздоровевших больше, чем среди не принимавших лекарство, различия значимы.

### Есть ли эффект от лекарства у мужчин и женщин вместе? 

In [None]:
# YOUR CODE


Как это ни странно, из таблицы с объединенными результатами следует, что доля выздоровевших больше среди тех людей, которые лекарство **не принимали**:

$$\frac{935}{935+960} \approx 0.493 \qquad < \qquad 0.542 \approx \frac{528}{528+445}.$$
  

Может произойти такая ситуация, что новое лекарство может оказаться эффективным в каждом из отдельных исследований, на каждой отдельной группе, но объединение результатов укажет на то, что это лекарство либо бесполезно, либо вредно. Проблема здесь в том, что объединять эти выборки просто слив данные вместе нельзя: контрольные группы (не принимавших лекарство) занимают разный объем от выборок -- примерно 12% в случае мужчин и 75% в случае женщин.

# Критерий Манна-Уитни

U-критерий Манна-Уитни - это непараметрический статистический критерий, используемый для оценки различий между двумя выборками по признаку, измеренному в количественной или порядковой шкале. U-критерий является ранговым.

**Выборки**    $X_1^{n1} = {X_{11} ... X_{1n_1}}$ и выборка $X_2^{n2} = {X_{21} ... X_{2n_2}}$ 


**Нулевая гипотеза**: $F_{X_1} = F_{X_2}$ - значения из выборок равномерно рассеяны в вариационном ряде.

**Альтернативная гипотеза (двусторонняя альтернатива)**  $F_{X_1} \not= F_{X_2}$ - значения в какой-то из выборок рассеяны в вариационном ряде неравномерно.


**Статистика** Уложим обе наши выборки в один вариационный ряд. После чего подсчитаем сумму рангов, приходящуюся на элементы первой выборки ($R_1$) и на элементы  второй выборки ($R_2$). 

$$U_1 = n_1n_2 + \dfrac{n_1(n_1+1)}{2} - R_1$$

$$U_2 = n_1n_2 + \dfrac{n_2(n_2+1)}{2} - R_2$$

$$U = min(U_1, U_2)$$

**Нулевое распределение** Табличное


In [None]:
import matplotlib.pyplot as plt
def two_histograms(x, y):
    """
    Функция, которая построит две гистограммы на одной картинке.
    Дополнительно пунктирными линиями указываются медианные значения выборок.
    x: вектор pd.Series,
    y: вектор pd.Series
    """
    x.hist(alpha=0.5, weights=[1./len(x)]*len(x))
    y.hist(alpha=0.5, weights=[1./len(y)]*len(y))
    plt.axvline(x.median(), color='red', alpha=0.8, linestyle='dashed')
    plt.axvline(y.median(), color='blue', alpha=0.8, linestyle='dashed')
    plt.legend([x.name, y.name])

Теперь давайте решим реальную задачку. 

In [None]:
df = pd.read_csv('Albuquerque Home Prices_data.txt', sep='\t')

In [None]:
df.head()

Хотим проверить, что цены домов на углу (COR = 1) отличаются от цен домов не на углу (COR = 0). Мы хотели бы применить t-критерий Стьюдента, но, увы, данные не удовлетворяют предпосылкам.
Также заметьте, что значение -9999 здесь употребляется в качестве пустого значения. Нужно заменить его на корректное пустое значение.

In [None]:
df = df.replace(-9999, np.nan)

In [None]:
df.head()

Сохраним в отдельные переменные выборки, которые собираемся сравнивать.

In [None]:
x = df[df['COR'] == 1]['PRICE']
y = df[df['COR'] == 0]['PRICE']
x.name, y.name = 'corner', 'not corner'

In [None]:
res = stats.mannwhitneyu(x, y)
print('p-value:', res[1])

In [None]:
two_histograms(x, y)

## Задача 3

Проверьте, отличаются ли цены домов на северо-востоке от цен домов в других местах.

In [None]:
#YOUR CODE

# Критерий Уилкоксона

Критерий Уилкоксона (Вилкоксона) для связных выборок — непараметрический статистический критерий, применяемый для оценки различий между двумя зависимыми выборками, взятыми из закона распределения, отличного от нормального, либо измеренными с использованием порядковой шкалы. Критерий является аналогом t-критерия Стьюдента для связанных выборок в тех случаях, когда предпосылки для применения t-критерия не выполняются.

Обычно критерий Уилкоксона применяют для того, чтобы сравнить показатели до и после лечения, до обучения и после и т.д.

**Выборки**    $X_1^{n1} = {X_{11} ... X_{1n_1}}$ и выборка $X_2^{n2} = {X_{21} ... X_{2n_2}}$ 

Важно, что выборки являются связными.


**Нулевая гипотеза**    $H_0: P(X_1 > X_2) = \frac{1}{2}$

**Альтернативная гипотеза**     $H_1: P(X_1 > X_2) \not= \frac{1}{2}$ (Двусторонняя альтернатива)

**Вычисление статистики критерия:**

* Рассчитать значения разностей пар двух выборок. Нулевые разности далее не учитываются. N - количество ненулевых разностей.
* Проранжировать модули разностей пар в возрастающем порядке.
* Приписать рангам знаки соответствующих им разностей.
* Рассчитать сумму R положительных рангов.

Рассмотрим файл reaction.xls, где  содержатся времена реакции испытуемых на световой и звуковой сигналы соответственно. Необходимо проверить гипотезу однородности времен рекции на различные раздражители.

In [None]:
df = pd.read_excel('reaction.xls')
df.head()

In [None]:
sample1 = df['LIGHT']
sample2 = df['SOUND']

В критерии Уикоксона есть предположение о нормальном распределении остатков. Для того, чтобы прикинуть, что это предположение выполнено, построим гистограмму для остатков:

In [None]:
plt.figure(figsize=(6,4))
plt.hist(sample1-sample2, bins=6)
plt.show()

In [None]:
stats.wilcoxon(sample1,sample2)

In [None]:
stats.wilcoxon(sample1,sample2, alternative='less')

In [None]:
stats.wilcoxon(sample1,sample2, alternative='greater')

In [None]:
stats.mannwhitneyu(sample1,sample2, alternative='two-sided')

## Задача 4

Пусть у нас есть баллы студентов за пробный экзамен до посещения интенсива и после. Проверьте гипотезу, есть ли значимый прирост знаний благодаря посещению интенсива.

In [None]:
st_before = [20, 23, 21, 25, 18, 17, 18, 24, 20, 24, 23, 19]
st_after = [24, 25, 21, 22, 23, 18, 17, 28, 24, 27, 21, 23]

# Критерий Знаков

Критерий знаков  - это статистический критерий, позволяющий проверить нулевую гипотезу, что выборка подчиняется биномиальному распределению с параметром p=1/2. Критерий знаков можно использовать как непараметрический статистический критерий для проверки гипотезы равенства медианы заданному значению (в частности, нулю), а также отсутствия сдвига (отсутствия эффекта обработки) в двух связных выборках. 

**Выборка**    $X_n = {X_1 ... X_n}$ 

**Нулевая гипотеза**    $H_0: median(X) = M$

**Альтернативная гипотеза**     $H_1: median(X) \not= M$ (двусторонняя альтернатива)

**Статистика** $T(X_n) = \sum_i[X_i>M]$ Здесь $[]$- индикаторная функция (равна 1, если условие в скобках истинно и нулю в противном случае)

**Нулевое распределение** $T \sim Binomial(n,\dfrac{1}{2})$

In [None]:
from statsmodels.stats.descriptivestats import sign_test

In [None]:
sign_test(sample1-sample2)

## Задача 5

В 2004 году проводился следующий эксперимент: 16 лабораторных мышей были помещены в двухкомнатные клетки, в одной из комнат висело зеркало. С целью установить, есть ли у мышей какие-то предпочтения насчет зеркал, измерялась доля времени, которое каждая мышь проводила в каждой из своих двух клеток. Проверьте гипотезу о том, что медиана доли времени, проведенного в клетке с зеркалом, равна 0.5. Данные в файле mirror_mouses.txt.

In [None]:
#YOUR CODE