# Основы математической статистики
### Базовые понятия и методы проверки статистических гипотез

### Часть 5. Непараметрические критерии

### Содержание:

1. Описание данных:
    * Нормальное распределение, выборочные оценки.
    * Проврка гипотез: ошибки первого и второго рода.
    * Статистические критерии, критерии согласия.
    * Чувствительность критерия.
2. Параметрические критерии:
    * Дисперсионный анализ.
    * Критерий Стьюдента.
    * Связанные выборки.
    * Множественные сравнения.
3. Анализ качественных признаков:
    * Z-критерий.
    * Таблицы сопряженности: критерий $\chi^2$.
    * Точный критерий Фишера.
4. Доверительные интервалы:
    * Построение доверительных интервалов.
    * Проверка гипотез с помощью доверительных интервалов.
5. Непараметрические критерии:
    * Критерий Манна—Уитни.
    * Критерий Уилкоксона.
    * Критерий Крускала—Уоллиса.
    * Критерий Фридмана.

<br>

<hr>

### Введение

Зачастую вполне реально определить характер распределения совокупности, из которого была извлечена выборка, и подобрать соответствующий критерий. Однако, это происходит не всегда, и условия применимости параметрических критериев нарушаются. В таких случаях необходимо прибегать к непараметрическим методам.

**Непараметрическая статистика** &mdash; раздел статистики, который не базируется исключительно на параметризованных семействах вероятностных распределений (примером могут служить матожидание и дисперсия). Как и ранее, рассмотрим раздел, связанный с проверкой статистических гипотез.

Статистические непараметрические критерии делятся на несколько групп, например: знаковые, ранговые, перестановочные. Поговорим о каждом из них:

* **Знаковые критерии**: данная группа непараметрических тестов является предельно простой и не обладает высокой чувствительностью. Суть заключается в подсчете числа объектов больше или меньше заданного значения. Не будем останавливаться на нем.

* **Ранговые критерии**: это статистические тесты, в которых вместо выборочных значений используются их ранги (номера элементов в упорядоченной по возрастанию выборке). Существует много критериев, опирающихся на эту идею, и именно о них в основном и пойдет речь. 

* **Перестановочные критерии:** в качестве своей идеи имеют предположение, что при верности нулевой гипотезы разнообразные вариантны конфигураций значений равновероятны. Происходит перебор всех возможноных конфигураций и оценка вероятности возникновения наблюдаемой.

Остановимся и подробнее обсудим ранговые критерии.

### Ранговые критерии

Одними из самых популярных ранговых критериев являются:

* Критерий Манна-Уитни: используется для оценки различий между двумя независимыми выборками.
* Критерий Уилкоксона: используется для проверки различий между двумя выборками парных или независимых измерений.
* Критерий Краскела-Уоллиса: проверяет гипотезу о том, имеют ли сравниваемые выборки одно и то же распределение или же распределения с одной и той же медианой (непараметрический аналог дисперсионного анализа).
* Критерий Фридмана: применяется для исследования влияния разных значений фактора (градаций фактора) на одну и ту же выборку.

### Критерий Манна-Уитни

Данный критерий является двувыборочным для независимых выборок. При использовании критерия к выборке, распределенной нормально, показывает мощность примерно на 10% меньшую, чем критерий Стьюдента. Однако, сильно выигрывает у него и других параметрических критериев при анализе выборок, не подчиняющимся нормальному распределению. 

Существую две разновидности данного критерия. Для начала рассмотрим **T-критерий Манна-Уитни**. Порядок вычисления таков:
1. Данные обеих групп объединяют и упорядочивают по возрастанию. Ранг 1 присваивают наименьшему из всех значений, ранг 2 &ndash; следующему и так далее. Наибольший ранг присваивают самому большому среди значений в обеих группах. Если значения совпадают, им присваивают один и тот же средний ранг (например, если два значения поделили 3-е и 4-е места, обоим присваивают ранг 3,5). Общее количество рангов получится равным $N=n_{1}+n_{2}$, где $n_{1}$ &ndash; количество элементов в первой выборке, а $n_{2}$ &ndash; количество элементов во второй выборке.
2. Для меньшей группы вычисляют $T$ &ndash; сумму рангов ее членов. Если численность групп одинакова, $T$ можно вычислить для любой из них.
3. Полученное значение $T$ сравнивают с критическими значениями из специальной таблицы для избранного уровня статистической значимости. Если $T$ меньше или равно первому из них, либо больше или равно второму, то нулевая гипотеза отвергается (различия статистически значимы).

При достаточно большом объеме выборочных данных (по некоторым данным $n_i >9$, но надежднее $n_i > 19$) можно не пользоваться таблицей &ndash; распределение статистики $Z$ 

$$ Z = \frac{T -  \mu_T}{\sigma_T}, $$

при справедливости нулевой гипотезы принимает вид, близкий к нормальному, со следующими параметрами:

$$ \mu_T = \frac{n_1\left(N + 1\right)}{2}, $$

$$ \sigma_T = \sqrt{\frac{n_1\left(N + 1\right)}{12} - \frac{n_1 n_2}{12N\left(N^2 - 1\right)}\sum_{i=1}^{k}\left(\tau_i-1\right)\tau_i\left(\tau_i+1\right)}, $$

где $n_1$ &ndash; объем выборки меньшего размера, $n_2$ &ndash; объем выборки большего размера, $k$ &ndash; количество совпадающих рангов, $\tau_i$ &ndash; число значений $i$-ого совпадающего ранга. Для большей точности вводится поправка Йейтса на непрерывность, актуальная для выборок малых размеров:

$$ Z = \frac{\left|T -  \mu_T\right| - \frac{1}{2}}{\sigma_T}. $$

Теперь рассмотрим **U-критерий Манна-Уитни**. Порядок вычисления таков:
1. Аналогично Т-критерию.
2. Разделить упорядоченный ряд на два, состоящие соответственно из единиц первой и второй выборок. Подсчитать отдельно сумму рангов, пришедшихся на долю элементов первой выборки, и отдельно &ndash; на долю элементов второй выборки. Определить большую из двух ранговых сумм $T_{x}$, соответствующую выборке с $n_{x}$ элементами.
3. Определить значение U-критерия Манна — Уитни по формуле:
$$ U = n_{1}\cdot n_{2}+{\frac {n_{x}\cdot (n_{x}+1)}{2}}-T_{x}.$$
4. По таблице для избранного уровня статистической значимости определить критическое значение критерия для данных $n_{1}$ и $n_{2}$. Если полученное значение $U$ меньше табличного или равно ему, то признается наличие существенного различия между уровнем признака в рассматриваемых выборках (принимается альтернативная гипотеза). Если же полученное значение $ U $ больше табличного, принимается нулевая гипотеза. Достоверность различий тем выше, чем меньше значение $U$.

При справедливости нулевой гипотезы и при достаточно большом объёме выборочных данных $(n_{1}>19,n_{2}>19)$ критерий распределен нормально с следующими параметрами:

$$\mu_U = \frac{n_{1}n_{2}}{2}, $$ 
 
$$ \sigma_U= \sqrt{\frac{n_{1}n_{2}(N+1)}{12} - \frac{n_1 n_2}{12N\left(N^2 - 1\right)}\sum_{i=1}^{k}\left(\tau_i-1\right)\tau_i\left(\tau_i+1\right)}.$$

### Критерий Уилкоксона

**Критерий Уилкоксона** &ndash; непараметрический статистический тест, используемый для проверки различий между двумя выборками парных или независимых измерений. Имеет много общего с критерием Манна-Уитни, в некоторых источник критерий Манна-Уитни называют критерием Уилкоксона для независимых измерений.

Как и в любом парном измерении, имеем одну группу с замеренным параметром до эксперимента и после. Алгоритм выглядит следующим образом:
1. Вычисляются величины изменений наблюдаемого признака. Отбрасываются пары наблюдений, которым соответствует нулевое изменение.
2. Изменения упорядочиваются по возрастанию их абсолютной величины и присваиваются соответствующие ранги. Рангами одинаковых величин являются среднее их рангов.
3. Каждому рангу присваевается знак в соответствии с направлением изменения: если значение увеличилось &ndash; «+», если уменьшилось &ndash; «–».
4. Вычисляется сумма знаковых рангов $W$.
5. Полученная величина $W$ сравнивается с критическим значением. Если она больше критического значения, изменение показателя статистически значимо.

Если $n > 19$, то распределение статистики с поправкой на непрерывность

$$z_W = \frac{\left|W-\mu_W\right| - \frac{1}{2}}{\sigma_W}$$ 

стремится к нормальному с параметрами:

$$ \mu_W = 0, $$

$$ \sigma_W = \sqrt{\frac{n\left(n+1\right)\left(2n+1\right)}{6} - \frac{1}{12}\sum_{i=1}^{k}\left(\tau_i-1\right)\tau_i\left(\tau_i+1\right)}. $$

Если $n < 19$, следует воспользоваться соответствующей таблицей.

### Критерий Краскела-Уоллиса

###  Критерий Фридмана

<br>

<br>

<br>

### Примечание

**Автор: Болгарин Максим. Физический факультет, МГУ, 2019г.**

Данной работой я хотел донести до начинающих программистов и аналитиков основы математической статистики на базовом и понятном для каждого уровне. Моей целью не было просто переписать информацию из учебников и интернет статей, а сгруппировать её в понятном и информативном виде.

Ссылка на мой github профиль: [перейти](https://github.com/maxbolgarin)

#### Источники:
1. [Wikipedia](https://ru.wikipedia.org/wiki/%D0%9C%D0%B0%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0)
2. [Стентон Гланц - Медико-биологическая статистика](https://yadi.sk/i/6A1LLMU78QqNPg)
3. [Кобзарь А. И. - Прикладная математическая статистика](https://yadi.sk/i/GDGalzNXL0HsMA)
4. [MachineLearning](http://www.machinelearning.ru/wiki/index.php?title=%D0%9F%D1%80%D0%BE%D0%B2%D0%B5%D1%80%D0%BA%D0%B0_%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D1%85_%D0%B3%D0%B8%D0%BF%D0%BE%D1%82%D0%B5%D0%B7)