# Основы математической статистики
### Базовые понятия и методы проверки статистических гипотез

### Часть 3. Анализ качественных признаков

### Содержание:

1. Описание данных:
    * Нормальное распределение, выборочные оценки.
    * Проврка гипотез: ошибки первого и второго рода.
    * Статистические критерии, критерии согласия.
    * Чувствительность критерия.
2. Параметрические критерии:
    * Дисперсионный анализ.
    * Критерий Стьюдента.
    * Связанные выборки.
    * Множественные сравнения.
3. Анализ качественных признаков:
    * Z-критерий.
    * Таблицы сопряженности: критерий $\chi^2$.
    * Точный критерий Фишера.
4. Доверительные интервалы:
    * Построение доверительных интервалов.
    * Проверка гипотез с помощью доверительных интервалов.
5. Непараметрические критерии:
    * Критерий Манна—Уитни.
    * Критерий Уилкоксона.

<br>

<hr>

<br>

### Качественные признаки

Статистические процедуры, описанные ранее, предназначены для анализа количественных признаков. Однако очень многие признаки невозможно измерить числом. Например, можно быть либо мужчиной, либо женщиной, либо мертвым либо живым. Можно быть врачом, юристом, рабочим и так далее. Здесь мы имеем дело с **качественными признаками.** Эти признаки не связаны между собой никакими арифметическими соотношениями, упорядочить их также нельзя. Единственный способ описания качественных признаков состоит в том, чтобы подсчитать число объектов, имеющих одно и то же значение. Кроме того, можно подсчитать, какая доля от общего числа объектов приходится на то или иное значение.

Рассмотрим понятие доли для описания качественных признаков. Пусть имеется совокупность (рассмотрим сначала генеральные совокупности) из $N$ объектов. При этом $M$ объектов обладают каким-то качественным признаком, которого нет у остальных $N-M$ объектов. Введем числовой признак $X$: у объектов совокупности, обладающих качественным признаком, он будет равен 1, а у объектов, не обладающих этим признаком, он будет равен 0. Тогда среднее значение $X$ равно:

$$ \mu = \frac{\sum_{i=1}^{N}X}{N} = \frac{1*M + 0*(N-M)}{N} = \frac{M}{N} = p, $$

где $p$ &ndash; доля объектов совокупности, обладающих данным признаком.

Используя такой подход, легко рассчитать стандартное отклонение совокупности:

$$ \sigma = \sqrt{\frac{\sum_{i=1}^{N}(X-\mu)^2}{N}} = \sqrt{\frac{M(1-p)^2 + (N-M)p^2}{N}} = \sqrt{p(1-p)^2 + (1-p)p^2} = \sqrt{p(1-p)}.$$

Теперь поговорим о выборочных оценках параметров распределения. Выборочная оценка доли $\hat{p}$ выражается аналогично среднему по совокупности, разве что $N$ и $M$ совокупности меняются на $n$ и $m$ выборки. Стандартное отклонение же определяется той же формулой, но через выборочные доли. Оценка стандартной ошибки выглядит следующим образом:

$$ s_{\hat{p}} = \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}}. $$

Из центральной предельной теоремы вытекает, что при достаточно большом объеме выборки выборочная оценка $\hat{p}$ приближенно подчиняется нормальному распределению, имеющему среднее $p$ и стандартное отклонение $\sigma_{\hat{p}} = \frac{\sigma}{\sqrt{n}} $. Однако при значениях р, близких к 0 или 1, и при малом объеме выборки это не так. При какой численности выборки можно пользоваться приведенным способом оценки? Математическая статистика утверждает, что нормальное распределение служит хорошим приближением, если и $n\hat{p}$ и $n(1-\hat{p})$ превосходят 5 (иначе рекомендуется использовать биномиальное распределение).

### Z-критерий для долей

**Z-тест (z-критерий Фишера)** &mdash; класс методов статистической проверки гипотез (статистических критериев), основанных на нормальном распределении. С помощью данного критерия можно выполнять проверку равенства средних значений количественных признаков, однако этот метод не рассматривался ранее (и не будет), так как требует знания дисперсии генеральной совокупности.

Что касается качественных признаков и выборочных долей, Z-критерий для этого случая определяется аналогично t-критерию для случая количественных признаков, однако после преобразований выглядит чуть по другому. Статистики критериев подчиняются стандартному нормальному распределению. Сформулируем одновыборочный и двувыборочный критерии.

**Одновыборочный:** пусть имеется одна группа размером $n$. Исследуется некоторый качественный признак, которым обладают $m$ объектов. Необходимо проверить равенство выборочной доли $\hat{p} = \frac{m}{n}$ некоторому значению $p_0$. Тогда статистика записывается следующим образом:

$$ z = \frac{\hat{p} - p_0}{\sqrt{p_0 \left(1-p_0\right)}}\sqrt{n}, $$

условия применимости: $ np_0 > 10 $ и $ n\left(1-p_0\right) > 10$.

**Двувыборочный для несвязанных выборок:** пусть имеются две группы по $n_1$ и $n_2$ объектов в каждой. Исследуется некоторый качественный признак, которым обладают $m_1$ объектов первой группы и $m_2$ второй. Необходимо проверить равенство долей в обеих группах. Тогда статистика записывается следующим образом:

$$ z = \frac{\left(\hat{p}_1 - \hat{p}_2\right)}{\sqrt{\hat{p}\left(1 - \hat{p}\right)\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}}, $$

где $\hat{p}_i = \frac{m_i}{n_i}$ &ndash; выборочная доля $i$-ой группы, $\hat{p}$ &ndash; объединенная доля:

$$ \hat{p} = \frac{m_1 + m_2}{n_1 + n_2}, $$

условия применимости: $ n_i\hat{p_i} > 5 $ и $ n_i\left(1-\hat{p_i}\right) > 5$.

Часто статистика дополняется **поправкой Йейтса (поправка на непрерывность)**, учитывающей дискретный характер распределения качественных признаков:

$$ z = \frac{\left|\hat{p}_1 - \hat{p}_2\right| - \frac{1}{2}\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}{\sqrt{\hat{p}\left(1 - \hat{p}\right)\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}}, $$

**Двувыборочный для связанных выборок:** пусть имеется одна группа размером $n$. Исследуется некоторый качественный признак, который может появиться либо исчезнуть у объектов после проведения эксперимента. Введем следующие обозначения:
* Количество объектов, которые в течение эксперимента приобрели признак: $g$;
* Количество объектов, которые в течение эксперимента потеряли признак: $f$.

Необходимо проверить статистическую значимость изменений в группе. Тогда статистика записывается следующим образом:

$$ z = \frac{f - g}{\sqrt{f + g - \frac{(f - g)^2}{n}}},$$

условия применимости: $ n\hat{p} > 5 $ и $ n\left(1-\hat{p}\right) > 5$.

#### Пример

Пусть исследуется новая система антиспама в почтовом сервисе. Было разработано две модели: первая отклонила 204 из 300 недоброжелательных писем, вторая: 427 из 650. Требуется оценить, какая модель работает лучше.

Гипотезы формулируются следующим образом:
* $H_0:$ доля отклоненных писем у двух моделей одинакова;
* $H_1:$ доля отклоненных писем у второй модели выше (альтернатива типа "smaller").

In [2]:
import numpy as np
from scipy import stats
from statsmodels.stats.proportion import proportions_ztest

In [3]:
def print_result(result):
    print("Значение статистики: %.5f" % result[0])
    print("p-value: %.5f" % result[1])

In [4]:
refused = [204, 427]
total = [300, 650]
print_result(proportions_ztest(refused, total, alternative='smaller'))

Значение статистики: 0.70008
p-value: 0.75806


Отсюда приходим к выводу, что разичие между моделями не является статистически значимым при уровне $\alpha=0.05$.

Теперь приведем пример применения критерия для связанных выборок. Исследуем изменение эффективности рекламного объявления в интернете при изменении его цвета. Анализируем по первым $n$ посетителям, если $i$-ый посетитель нажал на баннер, то записываем $1$, в противном случае $0$. Так два раза, до и после эксперимента, затем рассчитываем критерий и сравниваем с критическим значением.

* $H_0:$ доля нажатий по обеим баннерам одинакова;
* $H_1:$ доля нажатий по второму баннеру выше.

In [5]:
def proportions_ztest_rel(group_1, group_2):
    
    g, f = 0, 0
    for gr_1, gr_2 in zip(group_1, group_2):
        if gr_1 == 0 and gr_2 == 1:
            g += 1
        elif gr_1 == 1 and gr_2 == 0:
            f += 1
    
    Z = (f-g) / np.sqrt(f+g - ((f-g)**2) / len(group_1))
    p = stats.norm.cdf(Z)
    
    return Z, p

In [6]:
banner_clicks_old = [0,0,1,1,0,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1]
banner_clicks_new = [1,1,0,1,1,1,0,1,0,0,1,1,1,0,0,0,0,0,0,0,1,1,1,1]

print_result(proportions_ztest_rel(banner_clicks_old, banner_clicks_new))

Значение статистики: -2.04837
p-value: 0.02026


Принимаем альтернативную гипотезу, которая говорит о том, что на новый баннер пользователи кликают чаще, при уровне значимости $\alpha=0.05$.

### Таблицы сопряженности: критерий $\mathbf{\chi^2}$

**Критерий** $\mathbf{\chi^2}$ &mdash; класс методов статистической проверки гипотез (статистических критериев), для которых распределение статистики критерия при справедливости нулевой гипотезы подчиняется распределению $\chi^2$. Часто критерием $\chi^2$ называется критерий согласия Пирсона, о котором говорилось ранее. Вообще говоря, критерий $\chi^2$ используется для определения наличия существенной разницы между наблюдаемыми и ожидаемыми частотами в одной или нескольких категориях.

Рассмотренный выше Z-критерий хорошо работает, если качественный признак, который нас интересует, принимает два значения. Более того, поскольку метод является прямым аналогом критерия Стьюдента, число сравниваемых выборок также должно быть равно двум. Понятно, что и число значений признака и число выборок может оказаться большим двух.

Теперь будем использовать не доли, а числа, то есть количество объектов, обладающих рассматриваемым признаком. Приведем всё тот же пример двумя с моделями антиспама: первая отклонила 204 из 300 недоброжелательных писем, вторая: 427 из 650. Отобразим данные в виде **таблицы сопряженности:**


| Реальные данные | Отклонено | Пропущено |
| --------------- |-----------|-----------|
| Первая модель   | 204       | 96        |
| Вторая модель   | 427       | 223       |


Для данного метода необходимо построение таблицы ожидаемых чисел. Строится она следующим образом:
* Первой модель обработалось 300 писем, второй &ndash; 650, то есть всего было обработано 950 писем;
* Всего было отклонено 631 нежелательных писем, то есть $\approx 66.42\%$;
* Если мы принимаем нулевую гипотезу (модели работают одинаково), то обе модели должны отклонять нежелательные письма с одинаковой частотой. Отсюда следует, что первая модель должна отклонить $66.42\%$ от всех ею обработанных писем, то есть примерно 199; аналогично для второй модели $\approx$ 432 письмо. 

Построим таблицу:

| Ожидаемые значения | Отклонено | Пропущено |
| ------------------ |-----------|-----------|
| Первая модель      | 199       | 101       |
| Вторая модель      | 432       | 218       |


Как видим, числа в обеих таблицах близки друг к другу. Здравый смысл подсказывает, что это является подтвреждением нулевой гипотезы (а мы уже знаем по прошлому примеру, что она действительно верна). Однако, сформулируем формальный критерий, соответствующий данной логике.

Рассмотрим **критерий $\mathbf{\chi^2}$ для качественных признаков**. Интересен тот факт, что он не требует никаких предположений относительно параметров совокупности, из которой извлечены выборки, что делает его непараметрическим критерием. Рассмотрим эксперимент с тремя группами $n$ и четыремя качественными признаками $m$:

| Реальные данные  | Признак 1 | Признак 2 | Признак 3 | Признак 4 |
| ---------------- |-----------|-----------|-----------|-----------|
| Первая группа    | $O_{11}$  | $O_{12}$  | $O_{13}$  | $O_{14}$  |
| Вторая группа    | $O_{21}$  | $O_{22}$  | $O_{23}$  | $O_{24}$  |
| Третья группа    | $O_{31}$  | $O_{32}$  | $O_{33}$  | $O_{34}$  |

| Ожидаемые значения  | Признак 1 | Признак 2 | Признак 3 | Признак 4 |
| ------------------- |-----------|-----------|-----------|-----------|
| Первая группа       | $E_{11}$  | $E_{12}$  | $E_{13}$  | $E_{14}$  |
| Вторая группа       | $E_{21}$  | $E_{22}$  | $E_{23}$  | $E_{24}$  |
| Третья группа       | $E_{31}$  | $E_{32}$  | $E_{33}$  | $E_{34}$  |

Как мы заметили ранее, чем меньше различия между реальными и ожидаемыми значениями, тем правдивее звучит нулевая гипотеза. Формально в общем случае статистика критерия определяется следующим образом:

$$ \chi^2 = \sum_{i=1}^{n}\sum_{j=1}^{m}\left(\frac{(O_{ij} - E_{ij})^2}{E_{ij}}\right).$$

Данная статистика подчиняется распределению $\chi^2$ с $\nu = (n-1)(m-1)$ степенями свободы. Условием применимости данного критерия является требование того, чтобы ожидаемое значение $E_{ij} > 5$. В противном случае желательно использовать точный критерий Фишера, о котором позднее.

Как и для Z-теста, для данного критерия также существует **поправка Йейтса**, однако вводится она случях малых выборок (при $\nu = 1$ (то есть для 2х2 таблиц) и когда хотя бы одно из $E_{ij} < 5$). Выглядит она следующим образом:

$$ \chi_{Yates}^2 = \sum_{i=1}^{n}\sum_{j=1}^{m}\left(\frac{\left(\left|O_{ij} - E_{ij}\right| - 0.5\right)^2}{E_{ij}}\right).$$

К сожалению, данная поправка может только навредить, снизив мощность критерия. Поэтому её следует применять лишь при следующем условии: 

$$\sum_{i=1}^{n}\sum_{j=1}^{m}O_{ij} < 20. $$

Данным критерием класс тестов $\chi^2$ не ограничивается. Если в проводимом эксперименте анализируется ситуация с бинарным результатом (см. пример с кликами на баннер), то применяется **статистика Кохрана-Мантеля-Ханзеля (Cochran–Mantel–Haenszel statistics)**.

Выше рассматривались случаи независимых выборок. Теперь поговорим о связанных группах и рассмотрим **тест МакНемара (McNemar's test).** Данный критерий напоминает Z-тест для связанных выборок, и его так же можно кратко сформулировать через введение параметров $g$ и $f$. Однако, для разнообразия, в случае этого теста рассмотрим таблицу сопряженности.

Пусть имеется одна группа размера $n$. Исследуется зависимость положительных срабатываний тестов-маркеров (наличия признаков) до и после проведения эксперимента. Построим таблицу:

|                 | Test 2 positive | Test 2 negative | Row total |
| --------------- |-----------------|-----------------|-----------|
| Test 1 positive | $a$             | $b$             | $a+b$     |
| Test 1 negative | $c$             | $d$             | $c+d$     |
| Column total    | $a+c$           | $b+d$           | $n$       |

Здесь в ячейках указаны суммы объектов выборки с соответсвующим результатом. Нулевая и альтернативная гитпотезы:

* $H_0: \; p_b = p_c$;
* $H_1: \; p_b \neq p_c$;

Статистика критерия имеет вид:

$$ \chi^{2} = \frac{(b-c)^{2}}{b+c}. $$

При справедливости нулевой гипотезы статистика имеет распределение $\chi^2$ с одной степенью свободы. Проводя аналогию с F-тестом, видим, что здесь мы просто заменили буквы $g$ и $f$ на $c$ и $b$ соответственно.

#### Пример

Закончим рассмотрение примера с моделями антиспама. Мы уже посчитали ожидаемые значения, и осталось лишь вычислить статистику и сравнить с критическим значением. Делать это в ручную не будем, а воспользуемся, как обычно, средствами scipy.stats (заодно и проверим правильность вычисления таблицы ожидаемых значений).

In [11]:
obs_table = [[refused[0], total[0]-refused[0]],
             [refused[1], total[1]-refused[1]]]
chi2, p, _, exp_table = stats.chi2_contingency(obs_table)

print_result((chi2, p))
print("Ожидаемые значения:"); print(exp_table)

Значение статистики: 0.39210
p-value: 0.53120
Ожидаемые значения:
[[199.26315789 100.73684211]
 [431.73684211 218.26315789]]


Получаем, что разичие между моделями не является статистически значимым при уровне $\alpha=0.05$.

### Точный критерий Фишера

**Точный критерий Фишера** &mdsah; тест статистической значимости, используемый в анализе таблиц сопряжённости. Хотя на практике он чаще всего используется, когда размеры выборок невелики, критерий действителен для всех размеров выборки. Данный критерий относится к точным тестам значимости, поскольку не использует приближения большой выборки (асимптотики при размере выборки стремящемся к бесконечности). 

Как и ранее, строим таблицу сопряженности, возьмем уже знакомый пример с моделью антиспама, однако значительно уменьшим число обработанных писем:

| Реальные данные                | Отклонено | Пропущено | Сумма по моделям (признак 1) |
| ------------------------------ |-----------|-----------|------------------------------|
| Первая модель                  | 12        | 5         | 17                           |
| Вторая модель                  | 7         | 3         | 10                           |
| Сумма по пропускам (признак 2) | 19        | 8         | 27                           |

Нулевая гипотеза заключается в предположении о том, что нет разницы между двумя моделями (то есть нет зависимости между признаками 1 и 2). Построив все остальные варианты заполнения таблицы, возможные при данных суммах по строкам и столбцам, рассчитывают их вероятность. Вероятности, которые не превосходят вероятность исходной таблицы (включая саму
эту вероятность), суммируют. Полученная сумма &ndash; величина $p$ для двустороннего варианта точного критерия Фишера. Формально это выглядит следующим образом. Сначала построим общий вид таблицы:

| Реальные данные                | Отклонено | Пропущено | Сумма по моделям (признак 1) |
| ------------------------------ |-----------|-----------|------------------------------|
| Первая модель                  | $a$       | $b$       | $a+b$                        |
| Вторая модель                  | $c$       | $d$       | $c+d$                        |
| Сумма по пропускам (признак 2) | $a+c$     | $b+d$     | $n$                          |

Формула расчета вероятности:

$$ p={\frac{(a+b)!~(c+d)!~(a+c)!~(b+d)!}{a!~~b!~~c!~~d!~~n!}}.$$

Суммируя вероятности, полученные по этой формуле, для всех остальных возможных вариантов таблиц, получим искомое $p$-значение.

#### Пример

Наверняка, после прочтения теоретического введения по точному критерию Фишера, осталось много вопросов по поводу того, как же получать различные варианты таблиц. Так как сейчас повсеместно распространены способы вычисления статистических критериев с использованием компьютера, нет надобности зацикливаться на вычислении подобных "скучных" вещей руками на листке бумаги. Если всё же интересно, то в источнике [2] есть отличное описание данного процесса. Сейчас же доверимся scipy.stats.

Для разнообразия рассмотрим следующий пример. Имеем группу из 24 человек, в которой 12 мужчин и 12 женщин. Какая то часть из них учится в университете, а какая то &ndash; нет. Следует определить, есть ли зависимость между этими двумя признаками. Таблица значений:

| Реальные данные   | Мужчина | Женщина | Сумма по строкам |
| ----------------- |---------|---------|------------------|
| Учится            | 1       | 9       | 10               |
| Не учится         | 11      | 3       | 14               |
| Сумма по столбцам | 12      | 12      | 24               |

In [18]:
table = [[1, 9], [11, 3]]
print_result(stats.fisher_exact(table, alternative="two-sided"))

Значение статистики: 0.03030
p-value: 0.00276


Таким образом мы отклоняем нулевую гипотезу &mdash; различия статистически значимы при уровне значимости $\alpha=0.05$. Однако, так как использовалась двусторонняя альтернатива, мы можем лишь сделать вывод о существовании различий, но не можем сказать, в чью они пользу. Для этого необходимо использовать односторонную альтернативу.

### G-тест как замена критерию $\mathbf{\chi^2}$ *

**G-тест** &mdash; это критерий статистической значимости максимального правдоподобия, который все чаще используются в ситуациях, когда ранее был рекомендован критерий $\chi^2$. Ситуация аналогична рассмотренному выше критерию $\chi^2$ для качественных признаков, различаются они лишь статистикой, которая имеет вид:

$$ G = 2\sum_{i=1}^{n}\sum_{j=1}^{m}O_{ij}\cdot \ln{\left(\frac{O_{ij}}{E_{ij}}\right)}. $$

Учитывая нулевую гипотезу о том, что наблюдаемые частоты являются результатом случайной выборки из распределения с заданными ожидаемыми частотами, распределение $G$ является приблизительно равным распределению $\chi^2$ с тем же числом степеней свободы $\nu = (n-1)(m-1)$. Однако, для малых выборок предпочтительнее всё же использовать точный критерий Фишера. На этот счет высказывался Джон МакДональд (John H. McDonald, Handbook of Biological Statistics), приведем перевод его слов :

> Нет ничего особенного в размере выборки 1000, это просто хорошее круглое число, которое находится в пределах диапазона, где точный тест Фишера, тест $\chi^2$ и G–тест дадут почти идентичные значения $p$. 

Таким образом, при  малых объемах выборки ($n < 1000$) использование G-теста может оказаться нерациональным (в следствие его непопулярности и существовании точного теста Фишера). При больших выборках использование оправдано.

<br>

<br>

### Примечание

**Автор: Болгарин Максим. Физический факультет, МГУ, 2019г.**

Данной работой я хотел донести до начинающих программистов и аналитиков основы математической статистики на базовом и понятном для каждого уровне. Моей целью не было просто переписать информацию из учебников и интернет статей, а сгруппировать её в понятном и информативном виде.

#### Источники:
1. [Wikipedia](https://ru.wikipedia.org/wiki/%D0%9C%D0%B0%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0)
2. [Стентон Гланц - Медико-биологическая статистика](https://yadi.sk/i/6A1LLMU78QqNPg)
3. [Кобзарь А. И. - Прикладная математическая статистика](https://yadi.sk/i/GDGalzNXL0HsMA)
4. [MachineLearning](http://www.machinelearning.ru/wiki/index.php?title=%D0%9F%D1%80%D0%BE%D0%B2%D0%B5%D1%80%D0%BA%D0%B0_%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D1%85_%D0%B3%D0%B8%D0%BF%D0%BE%D1%82%D0%B5%D0%B7)