# Урок 7. Непараметрические тесты

Мы можем проверять наличие различий между двумя независимыми выборками с использованием **параметрических** тестов (при соблюдении определенных условий) и **непараметрических** тестов (при грубом нарушении хотя бы одного условия).

Когда мы использовали параметрические тесты, мы формулировали нулевую гипотезу, как равенство двух средних арифметических, а альтернативную гипотезу, как неравенство двух средних арифметических.\
С непараметрическими тестами мы вместо средних арифметических сравниваем медианы.

In [1]:
import numpy as np
import scipy.stats as stats

***
## Критерий Манна-Уитни

Критерий Манна–Уитни основан на рангах. Данный критерий считается аналогом t-критерия Стьюдента. Его следует использовать для сравнения двух **независимых выборок**, если:
* **не соблюдается условие нормальности**, или, если выборки очень маленького объема и мы не можем проверить соблюдение данного условия, и в то же время у нас нет уверенности, что выборки взяты именно из нормально распределенной генеральной совокупности

* дисперсии в сравниваемых выборках различны

* Число сравниваемых групп равно 2

Т.о. критерий Манна-Уитни может применяться при работе с количественными и порядковыми данными.

При расчете критерия Манна-Уитни значения случайной величины (СВ) заменяются рангами, т.е. порядковыми значениями, где 1й ранг соответствует самому маленькому значению, а последний ранг соответствует самому большому значению, т.е. мы присваиваем порядковые номера. Поступая таким образом, мы сохраняем максимально возможное количество информации о изучаемой СВ. Но если с параметрическими критериями нас интересовал тип распределения, то с непараметрическим критерием Манна-Уитни мы не заботимся об этом вопросе.

In [2]:
X = np.array([47, 90, 75])
Y = np.array([58, 60, 77])

stats.mannwhitneyu(X,Y)

MannwhitneyuResult(statistic=5.0, pvalue=1.0)

***
## Критерий Уилкоксона

Этот ранговый непараметрический критерий является также аналогом t-критерия Стьюдента. Но используется для парных измерений, т.е. для **зависимых выборок**.

### Пример

Предположим, исследуется влияние некоторой диеты на вес пациентов.  В исследовании участвуют 10 пациентов. Массив $x_1$ будет представлять их веса до начала диеты, а массив $x_2$ – веса тех же пациентов, но после окончания диеты. Т.е. до и после мы имеем по 10 весов пациентов. Мы находим разницу между их весами $x_2 – x_1$.

In [3]:
x1 = np.array([70, 74, 74.5, 79, 85, 93, 94, 98, 106.5, 107])
x2 = np.array([64, 76.5, 67, 73.5, 89, 85, 89.5, 91, 98, 100.5])

x2-x1

array([-6. ,  2.5, -7.5, -5.5,  4. , -8. , -4.5, -7. , -8.5, -6.5])

У нас есть положительные и отрицательные значения. Мы видим, что подавляющее большинство разностей имеют отрицательное значение и только 2 из них положительное. Чтобы найти расчетный критерий  Уилкоксона, нам необходимо сложить ранги этих несвойственных значений для массива $x_2-x_1$, обозначим эти значения $\Delta$. Tеперь надо присвоить ранги.

| Значение $\Delta$ | -6 | 2.5 | -7.5 | -5.5 | 4 | -8 | -4.5 | -7 | -8.5 | -6.5 |
| ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- | 
| ранг | 5 | 1 | 8 | 4 | 2 | 9 | 3 | 7 | 10 | 6 |

Складываем ранги 1+2=3 => W=3.

In [4]:
stats.wilcoxon(x1, x2)

WilcoxonResult(statistic=3.0, pvalue=0.009765625)

Предположим, что мы выбирали уровень статистической значимости $\alpha=0.05$. Следовательно, принимаем альтернативную гипотезу, о том, что статистически значимые различия между группами обнаружены.

***
## Критерий Крускала–Уоллиса

H-критерий.

Это аналог дисперсионно анализа. Данный тест проверяет равенство медиан трех и более выборок.
Применяется, если нарушаются условия для параметрических критериев (нормальность и равенство дисперсий) и группы независимы.

Чтобы рассчитать критерий Крускала-Уоллиса $H$ делаем следующее:
1) Обобщим все данные в один ряд

2) Присвоим ранги в этом ряду
	
3) Посчитаем сумму рангов, присвоенных в общем ряду, но теперь уже в отдельных группах. Т.е. получим сумму рангов для каждой отдельной группы.

4) Воспользуемся формулой: \
$\displaystyle H = \frac{12}{N(N+1)} \cdot \sum_{i=1}^{k_j}{\frac{T_j^2}{n_j}} - 3(N+1)$, где \
$N$ – общее число  измерений во всех сравниваемых выборках, \
$k_j$ – объем $j$-ой выборки, \
$T_j$ – сумма рангов в каждой выборке.

### Пример

Даны заработные платы людей, принадлежащих к трем разным профессиям (условия нормальности не соблюдается). \
gr1: 70, 50, 64, 61, 75, 67, 73 \
gr2: 80, 78, 90, 68, 74, 65, 85 \
gr3: 141, 142, 140, 152, 161, 163, 155 \
Требуется определить, влияет ли профессия на заработную плату.

In [5]:
gr1 = np.array([70, 50, 64, 61, 75, 67, 73])
gr2 = np.array([80, 78, 90, 68, 74, 65, 85])
gr3 = np.array([141, 142, 140, 152, 161, 163, 155])

n = np.array([gr1.shape[0], gr2.shape[0], gr3.shape[0]])
N = sum(n)

gr = np.hstack((gr1, gr2, gr3))
ranks = stats.rankdata(gr)
T = np.array([sum(ranks[:n[0]]),
              sum(ranks[n[0]:n[0]+n[1]]),
              sum(ranks[n[0]+n[1]:]) ])

H = 12/(N*(N+1)) * sum(np.power(T,2) / n) - 3*(N+1)
H

15.384044526901675

In [6]:
stats.kruskal(gr1, gr2, gr3)

KruskalResult(statistic=15.384044526901675, pvalue=0.00045645416718036815)

***
## Критерий Фридмана

В случае повторных измерений и несоблюдения условий нормальности и равенства дисперсий в исследуемых выборках, применяем критерий Фридмана.

1) Сначала назначаются ранги по каждому объекту исследования.

2) Затем находи  сумму рангов по выборкам.

3) Теперь нужно найти средний ранг: \
$\displaystyle R = \frac{n(k+1)}{2}$, где \
$n$ - объем выборки,
$k$ -число сравниваемых групп.

4) Производим расчет критерия Фридмана по формуле: \
$\displaystyle \chi_r^2 = \frac{12}{nk(k+1)} \cdot \sum{(R_i-\bar{R})^2}$, где \
$R_i$ – сумма рангов по подгруппам.

In [7]:
diet0 = np.array([123, 135, 119, 109, 145])
diet1 = np.array([126, 144, 117, 156, 170])
diet2 = np.array([141, 150, 164, 147, 169])

stats.friedmanchisquare(diet0, diet1, diet2)

FriedmanchisquareResult(statistic=5.200000000000003, pvalue=0.0742735782143338)

***
## Условия применения непараметрических критериев

<img src="./img/image1.png" alt="image1" width="1000"/>