# Непараметрические методы проверки гипотез.

В прикладном машинном обучении нам часто нужно определить, имеют ли две выборки данных одинаковые или разные распределения. Мы можем ответить на этот вопрос, используя тесты статистической значимости, которые могут количественно определить вероятность того, что выборки имеют одинаковое распределение.

Если данные не имеют привычного распределения Гаусса, мы должны прибегнуть к **непараметрической версии тестов значимости**. Эти тесты работают аналогичным образом, но требуют, чтобы реальные данные были сначала преобразованы в ранговые данные, прежде чем можно будет выполнить тест.

В этом уроке мы познакомимся с непараметрическими статистическими тестами, которые можно использовать, чтобы определить, были ли выборки данных взяты из совокупностей с одинаковым или различным распределением.



## Непараметрические тесты статистической значимости

**Непараметрическая статистика** — это те методы, которые не предполагают определенного распределения данных.

Часто они относятся к статистическим методам, которые не предполагают гауссово распределение. Они были разработаны для использования с порядковыми или интервальными данными, но на практике их также можно использовать с ранжированием наблюдений с действительными значениями в выборке данных, а не на самих значениях наблюдений.

Общий вопрос о двух или более наборах данных - отличаются ли они? В частности, является ли различие между их центральной тенденцией (например, средним или медианным) статистически значимым. На этот вопрос можно ответить для выборок данных, не имеющих гауссовского распределения, с помощью непараметрических тестов статистической значимости. Нулевая гипотеза этих тестов часто представляет собой предположение, что обе выборки были взяты из совокупности с одинаковым распределением и, следовательно, с одинаковыми параметрами совокупности, такими как среднее значение или медиана.

Если после расчета критерия значимости для двух или более выборок нулевая гипотеза отклоняется, это указывает на то, что есть основания предполагать, что выборки были взяты из разных совокупностей, и, в свою очередь, разница между выборочными оценками параметров совокупности, таких как средние значения или медианы. может быть значительным.

В общем, каждый тест вычисляет тестовую статистику, которую необходимо интерпретировать с некоторым опытом в статистике и более глубоким знанием самого статистического теста. Тесты также возвращают p-значение, которое можно использовать для интерпретации результата теста. Значение p можно рассматривать как вероятность наблюдения двух выборок данных при базовом предположении (нулевой гипотезе), что две выборки были взяты из совокупности с одинаковым распределением.

Значение p можно интерпретировать в контексте выбранного уровня значимости, называемого альфа. Обычное значение альфы составляет 5% или 0,05. Если p-значение ниже уровня значимости, то тест говорит, что имеется достаточно доказательств, чтобы отклонить нулевую гипотезу, и что выборки, вероятно, были взяты из популяций с различным распределением:
- p <= alpha : отклонить H0, распределения различаются.
- p > alpha : не удалось отклонить H0, распределения одинаковы.

## Тестовый набор данных

Прежде чем мы рассмотрим конкретные непараметрические тесты значимости, давайте сначала определим тестовый набор данных.

Мы создадим две выборки, взятые из разных наборов. Для простоты мы возьмем выборки из распределений Гаусса, хотя, как уже отмечалось, тесты, которые мы рассматриваем, предназначены для выборок данных, где мы не знаем или не предполагаем какое-либо конкретное распределение.

Мы будем использовать функцию **randn()** пакета **NumPy** для создания выборки из 100 гауссовых случайных чисел в каждой выборке со средним значением 0 и стандартным отклонением 1. Наблюдения в первой выборке масштабируются, чтобы иметь среднее значение 50 и стандартное отклонение. из 5. Наблюдения во второй выборке масштабируются, чтобы иметь среднее значение 51 и стандартное отклонение 5.

Мы ожидаем, что статистические тесты обнаружат, что выборки были взяты из разных распределений, хотя небольшой размер выборки в 100 наблюдений на выборку добавит некоторый шум.


In [2]:
# Генерирация выборок с гауссовым распределением
from numpy.random import seed
from numpy.random import randn
from numpy import mean
from numpy import std
# запуск генератора случайных чисел
seed(1)
# генерация двух наборов одномерных наблюдений
data1 = 5 * randn(100) + 50
data2 = 5 * randn(100) + 51
# оценка
print('набор данных 1: среднее=%.3f стандартное отклонение=%.3f' % (mean(data1), std(data1)))
print('набор данных 2: среднее=%.3f стандартное отклонение=%.3f' % (mean(data2), std(data2)))

набор данных 1: среднее=50.303 стандартное отклонение=4.426
набор данных 2: среднее=51.764 стандартное отклонение=4.660


При выполнении примера создаются выборки данных, затем вычисляются и распечатываются среднее значение и стандартное отклонение для каждой выборки, подтверждая их различное распределение.

## U-тест Манна-Уитни

**U-критерий Манна-Уитни** (назван в честь Генри Манна и Дональда Уитни, хотя иногда его называют тестом Уилкоксона-Манна-Уитни, также названным в честь Фрэнка Уилкоксона, который также разработал вариант теста) — это непараметрический критерий статистической значимости для определения того, были ли взяты две независимые выборки из совокупности с одинаковым распределением.

Две выборки объединяются и ранжируются вместе. Стратегия состоит в том, чтобы определить, смешиваются ли значения из двух выборок случайным образом в ранжированном порядке или они сгруппированы на противоположных концах при объединении. Случайный порядок ранжирования будет означать, что две выборки не отличаются друг от друга, в то время как кластер значений одной выборки будет указывать на разницу между ними.

Предположение по умолчанию или нулевая гипотеза состоит в том, что нет никакой разницы между распределениями выборок данных. Отказ от этой гипотезы предполагает, что между выборками, вероятно, есть некоторая разница. В частности, тест определяет, равновероятно ли, что любое случайно выбранное наблюдение из одной выборки будет больше или меньше, чем выборка из другого распределения.
- Не удалось отклонить H0: выборочные распределения равны.
- Удалось отклонить H0: выборочные распределения не равны.
Чтобы тест был эффективным, требуется не менее 20 наблюдений в каждой выборке данных.

Мы можем реализовать U-тест Манна-Уитни на Python, используя  функцию **mannwhitneyu()** пакета **SciPy**. Функции принимают в качестве аргументов две выборки данных. Он возвращает статистику теста и значение p.

В приведенном ниже примере демонстрируется U-критерий Манна-Уитни на тестовом наборе данных.

In [4]:
# U-тест Манна-Уитни
from numpy.random import seed
from numpy.random import randn
from scipy.stats import mannwhitneyu
# запуск генератора случайных чисел
seed(1)
# генерация двух наборов одномерных наблюдений
data1 = 5 * randn(100) + 50
data2 = 5 * randn(100) + 51
# сравнение данных
stat, p = mannwhitneyu(data1, data2)
print('Statistics=%.3f, p=%.3f' % (stat, p))
# мнтерпретация
alpha = 0.05
if p > alpha:
	print('Распределения одинаковы (не удалось отклонить H0)')
else:
	print('Разпределения различны (удалось отклонить H0)')

Statistics=4025.000, p=0.017
Разпределения различны (удалось отклонить H0)


При выполнении примера вычисляется тест для наборов данных и печатается статистика и p-значение. Значение p убедительно свидетельствует о том, что выборочные распределения отличаются, как и ожидалось.

## Знаковый ранговый критерий Уилкоксона

В некоторых случаях выборки данных могут быть **парными**. Есть много причин, по которым это происходит, например, выборки каким-то образом связаны, совпадают или представляют собой два измерения по одной и той же методике. Каждая такая выборка независима, но происходит из одной и той же совокупности.

Примерами парных выборок в машинном обучении могут быть один и тот же алгоритм, оцениваемый на разных наборах данных, или разные алгоритмы, оцениваемые на одних и тех же обучающих и тестовых данных.

Выборки **не являются независимыми**, поэтому U-критерий Манна-Уитни использовать нельзя. Вместо этого используется **критерий знакового ранга Уилкоксона**, также называемый **Т-критерием Уилкоксона** (названный в честь Фрэнка Уилкоксона). Это эквивалент парного Т-критерия Стьюдента, но для ранжированных данных вместо данных с распределением Гаусса.

**Критерий знаковых рангов Уилкоксона** представляет собой непараметрическую статистическую процедуру сравнения двух парных или связанных выборок. Параметрический эквивалент критерия знаковых рангов Уилкоксона называется **t-критерием Стьюдента**, **t-критерием для совпадающих пар**, **t-тестом для парных выборок** или t**-тестом для зависимых выборок**.

Предположение по умолчанию для теста, нулевая гипотеза, состоит в том, что две выборки имеют одинаковое распределение:
- Не удалось отклонить H0: распределения выборок равны.
- Удалось отклонить H0: распределения выборок не равны.

Чтобы тест был эффективным, требуется не менее 20 наблюдений в каждой выборке данных.

Критерий знакового ранга Уилкоксона можно реализовать на Python с помощью функции **wilcoxon()** пакета SciPy. Функция принимает две выборки в качестве аргументов и возвращает вычисленную статистику и p-значение.

Ниже приведен полный пример, демонстрирующий вычисление критерия знакового ранга Уилкоксона для тестовой задачи.

In [6]:
# Знаковый ранговый критерий Уилкоксона
from numpy.random import seed
from numpy.random import randn
from scipy.stats import wilcoxon
# запуск генератора случайных чисел
seed(1)
# генерация двух наборов одномерных наблюдений
data1 = 5 * randn(100) + 50
data2 = 5 * randn(100) + 51
# сравнение выборок
stat, p = wilcoxon(data1, data2)
print('Статистика=%.3f, p=%.3f' % (stat, p))
# интерпретация
alpha = 0.05
if p > alpha:
	print('Распределения одинаковы (не удалось отклонить H0)')
else:
	print('Разпределения различны (удалось отклонить H0)')

Статистика=1886.000, p=0.028
Разпределения различны (удалось отклонить H0)


Выполнение примера вычисляет и печатает статистику и печатает результат. P-значение интерпретируется как убедительное предположение о том, что выборки взяты из разных распределений.

## H-тест Крускала-Уоллиса

При работе с тестами значимости, такими как **U-критерий Манна-Уитни** и **критерий знакового ранга Уилкоксона**, сравнения между выборками данных должны выполняться попарно.

Это может быть неэффективно, если у нас много выборок данных и интересует только то, имеют ли две или более выборки различное распределение.

**Критерий Крускала-Уоллиса** — это непараметрическая версия однофакторного дисперсионного анализа или, для краткости, ANOVA. Он назван в честь разработчиков метода Уильяма Крускала и Уилсона Уоллиса. Этот тест можно использовать для определения того, имеют ли более двух независимых выборок различное распределение. Его можно рассматривать как обобщение U-критерия Манна-Уитни.

Предположение по умолчанию или нулевая гипотеза состоит в том, что все выборки данных были взяты из одного и того же распределения. В частности, медианы населения всех групп равны. Отклонение нулевой гипотезы указывает на то, что имеется достаточно доказательств, чтобы предположить, что одна или несколько выборок доминируют над другой выборкой, но тест не указывает, какие выборки или насколько.

Когда **H-критерий Крускала-Уоллиса** приводит к значимым результатам, то по крайней мере одна из выборок отличается от других выборок. Однако тест не определяет, где возникает различие. Кроме того, он не определяет, сколько различий возникает. 

- Не удалось отклонить H0: все выборочные распределения равны.
- Удалось отклонить H0: одно или несколько выборочных распределений не равны.

Каждая выборка данных должна быть независимой, иметь 5 или более наблюдений, а выборки данных могут различаться по размеру.

Мы можем обновить тестовую задачу, чтобы иметь 3 выборки данных вместо 2, две из которых имеют одинаковое среднее значение выборки. Учитывая, что один образец отличается, мы ожидаем, что тест обнаружит разницу и отклонит нулевую гипотезу.

In [None]:
# генерация трех независимых выборок
data1 = 5 * randn(100) + 50
data2 = 5 * randn(100) + 50
data3 = 5 * randn(100) + 52

**H-тест Крускала-Уоллиса** можно реализовать на Python с помощью функции **kruskal()** пакета **SciPy**. Он принимает две или более выборки данных в качестве аргументов и возвращает статистику теста и значение p в качестве результата.

In [8]:
# H-тест Крускала-Уоллиса
from numpy.random import seed
from numpy.random import randn
from scipy.stats import kruskal
# запуск генератора случайных чисел
seed(1)
# генерация двух наборов одномерных наблюдений
data1 = 5 * randn(100) + 50
data2 = 5 * randn(100) + 50
data3 = 5 * randn(100) + 52
# сравнение выборок
stat, p = kruskal(data1, data2, data3)
print('Статистика=%.3f, p=%.3f' % (stat, p))
# интерпретация
alpha = 0.05
if p > alpha:
	print('Распределения одинаковы (не удалось отклонить H0)')
else:
	print('Разпределения различны (удалось отклонить H0)')

Статистика=6.051, p=0.049
Разпределения различны (удалось отклонить H0)


При выполнении примера вычисляется тест и распечатываются результаты. Значение p интерпретируется, правильно отвергая нулевую гипотезу о том, что все выборки имеют одинаковое распределение.

## Тест Фридмана

Как и в предыдущем примере, у нас может быть более двух разных выборок и интерес к тому, имеют ли все выборки одинаковое распределение или нет. Если образцы каким-либо образом связаны, например, повторные измерения, то **H-критерий Крускала-Уоллиса** не подходит. Вместо этого можно использовать **тест Фридмана** (названный в честь Милтона Фридмана).

**Критерий Фридмана** — это непараметрическая версия дисперсионного анализа с повторными измерениями или дисперсионного анализа с повторными измерениями. Этот тест можно рассматривать как обобщение H-теста Крускала-Уоллиса для более чем двух образцов.

Предположение по умолчанию или нулевая гипотеза состоит в том, что несколько парных выборок имеют одинаковое распределение. Отклонение нулевой гипотезы указывает на то, что одна или несколько парных выборок имеют другое распределение.
- Не удалось отклонить H0: распределения парных выборок равны.
- Удалось отклонить H0: распределения парных выборок не равны.

Тест предполагает наличие двух или более парных выборок данных с 10 или более выборками на группу.

**Критерий Фридмана** — это непараметрическая статистическая процедура для сравнения более чем двух связанных выборок. Параметрическим эквивалентом этого теста является дисперсионный анализ с повторными измерениями (ANOVA). Когда тест Фридмана дает значимые результаты, по крайней мере один из образцов отличается от других образцов.

Мы можем реализовать тест Фридмана на Python, используя функцию **friedmanchisquare()** пакета SciPy. Эта функция принимает в качестве аргументов выборки данных для сравнения и возвращает рассчитанную статистику и p-значение.

Этот тест значимости можно продемонстрировать на том же варианте тестового набора данных, что и в предыдущем разделе. А именно три выборки, две с одинаковым средним значением генеральной совокупности и одна с немного другим средним значением. Хотя образцы не являются парными, мы ожидаем, что тест обнаружит, что не все образцы имеют одинаковое распределение.

In [None]:
# Тест Фридмана
from numpy.random import seed
from numpy.random import randn
from scipy.stats import friedmanchisquare
# запуск генератора случайных чисел
seed(1)
# генерация двух наборов одномерных наблюдений
data1 = 5 * randn(100) + 50
data2 = 5 * randn(100) + 50
data3 = 5 * randn(100) + 52
# сравнение выборок
stat, p = friedmanchisquare(data1, data2, data3)
print('Statistics=%.3f, p=%.3f' % (stat, p))
# интерпретация
alpha = 0.05
if p > alpha:
	print('Same distributions (fail to reject H0)')
else:
	print('Different distributions (reject H0)')

При выполнении примера вычисляется тест для трех выборок данных и печатается статистика теста и значение p. Правильная интерпретация p-значения указывает на то, что по крайней мере одна выборка имеет другое распределение.

