# THEORY. Тест Манна-Уитни
До этого мы изучали параметрические тесты — тесты, которые по выборке судят о параметрах генеральной совокупности. 

Для распределений, которые не являются нормальными (то есть содержат выбросы), используются непараметрические тесты.

Критерий Манна-Уитни (он же U-тест) также встроен в библиотеку scipy.stats. Его суть заключается в том, что значения в обеих выборках сортируются по убыванию и каждому значению присваивается ранг — порядковое место числа в списке.

Работа с рангами позволяет игнорировать выбросы в выборках. 

Проверим гипотезу о количестве лайков двух блогеров. Один из них утверждает, что они получают одинаковое количество лайков по дням. Давайте выясним, так ли это.

    Примечание. Это абстрактный пример, за ним не стоит реальный датасет. Порядок действий, описанный ниже, призван показать общую логику решения задачи.

Импортируем необходимые библиотеки и загрузим датафрейм: 

In [None]:
import pandas as pd
import scipy.stats as st 

df = pd.read_excel('blogger_likes.xlsx')

Построим график и посмотрим на распределение:

In [None]:
df[df['group'] == 'A']['likes'].hist()
df[df['group'] == 'B']['likes'].hist(alpha=0.4)

Такое распределение сложно назвать нормальным: в одни дни лайков было мало, в другие, наоборот, много.

Давайте проверим гипотезу!

Запишем количество лайков каждого блогера в отдельную переменную:

In [None]:
blogger_1 = df[df['group'] == 'A']['likes']
blogger_2 = df[df['group'] == 'B']['likes']

Зададим уровень значимости и применим теста Манна-Уитни:

In [None]:
alpha = .05
results = st.mannwhitneyu(blogger_1, blogger_2)
print(results)

In [None]:
results.pvalue < alpha

Статистически значимой разницы нет. Отвергнуть нулевую гипотезу не получилось. Похоже, что количество лайков, получаемых в сутки, одинаково.