**Критерий Уилкоксона-Манна-Уитни** иногда называют **ранговым критерием Уилкоксона** или **U-тестом Манна-Уитни**, но на самом деле это все один тест

Он используется для сравнения медиан распределения статистики двух независимых выборок в смысле линейного сдвига относительно центра симметрии

Можно грубо обощить, что он работает в сравнении средних

In [1]:
import random
from scipy.stats import norm, binom, expon, wilcoxon
import numpy as np
import statsmodels.api as sm

In [2]:
np.random.seed(42)

In [3]:
x = norm.rvs(size = 500, loc = 0, scale = 1)
y = norm.rvs(size = 500, loc = 1, scale = 1)

In [4]:
# обратим внимание, что при сгенерированной выборке из 500 наблюдений
# разница в средних в 0.1 уже достаточна для того, чтобы получить близкий 
# к отвержению нулевой гипотезы результат
wilcoxon(x, y)

WilcoxonResult(statistic=19619.0, pvalue=2.1659176384525174e-40)

In [5]:
x = norm.rvs(size = 500, loc = 0, scale = 1)
y = norm.rvs(size = 500, loc = 0, scale = 50)

# А вот разницу в с.к.о. нормального распределения тест не распознает
wilcoxon(x, y)

WilcoxonResult(statistic=60022.0, pvalue=0.4206453130104407)

In [6]:
# Проверим тест на разные распределения, для этого возьмем выборку с 
# биномиальным распределеним и экспоненциальным. Параметры подберем таким образом
# что средние у них будут приблизительно схожи
x = binom.rvs(size=300, n=1, p=0.18)
y = expon.rvs(size=300, scale=0.2)
print(np.mean(x))
print(np.mean(y))

0.16666666666666666
0.19733118364373312


In [7]:
# Что ожидаемо, тест Уилкоксона-Манна-Уитни показал разницу в выборках
wilcoxon(x, y)

WilcoxonResult(statistic=13529.0, pvalue=1.791887908835471e-09)

In [8]:
# А вот тест Стьюдента не отвергнет гипотезу о равенстве средних
# Поскольку мы не выполнили условие о нормальности распределений
# доверять этим результатам не стоит (хотя средние у них и правда похожи)
res = sm.stats.ttest_ind(x, y)
print("Two Sample t-test")
print("t =", res[0])
print("p-value =", res[1])
print("df = ", res[2])

Two Sample t-test
t = -1.2798445685951283
p-value = 0.20109609056416852
df =  598.0
