>Предыдущий юнит был посвящён выбору статистической значимости. В этом мы разберём выбор статистического теста — это шаг 4 в алгоритме проверки статистической гипотезы.

### ОСНОВНЫЕ ТИПЫ СТАТИСТИЧЕСКИХ ТЕСТОВ

Существует множество статистических тестов. Задача дата-сайентиста в том, чтобы выбрать подходящий тест и провести его, получив на выходе `p-value`. Далее мы разберём, от чего зависит выбор теста, а также их основные типы.

Вспомним, что признаки объектов, которые мы анализируем, делятся на `количественные` и `категориальные`.

<img src='img/DST_EDA_4_5_1.png'>

Для разных типов признаков используются разные статистические тесты.

Далее мы будем говорить о статистических тестах для `количественных` признаков, так как они состоят из большего числа этапов и задачи с количественными признаками `чаще встречаются` на практике. Тесты для категориальных признаков мы рассмотрим в юните «Статистические тесты для категориальных признаков».

`Выбор статистического теста` для количественных признаков зависит от ряда факторов:

- количества анализируемых групп (выборок): одна, две, три и более групп;
- зависимости групп: зависимые и независимые;
- знания о распределении признаков по нормальному закону.

Ниже мы рассмотрим каждый из этих факторов.

### КРИТЕРИЙ ВЫБОРА ТЕСТА: КОЛИЧЕСТВО ГРУПП

По количеству анализируемых групп тесты делятся на `одновыборочные`, `двухвыборочные` и `многовыборочные`.

<img src='img/DST_EDA_4_5_2.png'>

Количество групп определяется значением фактора, влияние которого мы анализируем, например:

- Чтобы определить, достигается ли целевой показатель «среднее время посещения сайта — пять минут», понадобится случайным образом набрать из посетителей этого сайта одну группу.

- Для определения эффекта от лекарства понадобится две группы: пациенты, не принимающие лекарство (контрольная группа), и пациенты, принимающие его (тестовая группа).

- Чтобы выяснить, влияет ли цвет машины на её стоимость, понадобится количество групп, равное анализируемому количеству цветов: белый, чёрный, красный, серый и т. д.

|ТИП ТЕСТА|ПРИМЕР ЗАДАЧИ|
|:---:|:---:|
|Одновыборочный|Равно ли среднее время посещения сайта пяти минутам?|
|Двухвыборочный|Выздоравливают ли пациенты, принимающие лекарство, быстрее, чем те, которые его не принимают?|
|Многовыборочный|Влияет ли цвет машины на её стоимость?|

### КРИТЕРИЙ ВЫБОРА ТЕСТА: ЗАВИСИМОСТЬ ГРУПП

Сравниваемые группы могут быть `независимыми` и `зависимыми`.

<table>
 <td>В <b>независимых</b> группах набор объектов в одну группу проходит независимо от набора объектов в другие группы.<br>

Примеры: случайное деление школьников внутри одного класса, случайный набор в группы из всего множества пользователей приложения.</td>
<td>В <b>зависимых</b> группах каждый объект одной группы связан с объектом в другой группе. Такая ситуация возникает, например, когда мы анализируем признаки в динамике.<br>

Примеры: покупатели до получения рассылки и эти же покупатели после её получения, пациенты до начала лечения и эти же пациенты после его окончания.
</td>
</table>

Тесты, разработанные для сравнения **независимых** групп, называются `непарными`, тесты для сравнения **зависимых** групп — `парными`.

<img src='img/DST_EDA_4_5_3.png'>

### КРИТЕРИЙ ВЫБОРА ТЕСТА: РАСПРЕДЕЛЕНИЕ ПРИЗНАКА ПО НОРМАЛЬНОМУ ЗАКОНУ

Если признаки распределены по `нормальному закону`, к ним можно применять **параметрические** тесты — статистические методы, основанные на параметрах нормального распределения (среднее значение, стандартное отклонение).

Если мы знаем, что признаки `не распределены нормально` или у нас нет информации об их распределении, необходимо использовать **непараметрические** тесты. Их можно применять на любых количественных признаках независимо от вида их распределения. 
Непараметрические методы менее чувствительны к выбросам в данных.

<img src='img/DST_EDA_4_5_4.png'>

Непараметрические методы можно применять и на нормально распределённых данных, но в таком случае они будут `менее мощными` (будут обладать меньшей мощностью теста), чем параметрические.

### АЛГОРИТМ ВЫБОРА ТЕСТА ДЛЯ КОЛИЧЕСТВЕННЫХ ПРИЗНАКОВ

<img src='img/DST_EDA_4_5_5.png'>

Например, в задаче, зависит ли средний чек покупки от пола покупателей, шаги по выбору теста будут такими:

- Какой тип у признака «средний чек»?<br>
  Количественный.
- Сколько сравниваемых групп? <br>
  Две (мужчины и женщины).
- Группы зависимы? <br>
  Нет, так как объекты в выборках не повторяются.
- Признак распределён по нормальному закону?<br>
  Если да, нужен `двухвыборочный t-критерий`.<br>
  Если нет, нужен `U-критерий Манна — Уитни`.<br>

> Примечание. `Двухвыборочный t-критерий`, `U-критерий Манна — Уитни` и другие приведённые в алгоритме статистические тесты мы рассмотрим в следующих юнитах.

В алгоритме указано по одному, наиболее популярному, тесту для каждой ситуации. На самом деле видов статистических тестов больше — они различаются предположениями о данных и принципом работы. Одну и ту же задачу можно решить с помощью нескольких видов тестов.

> Примечание. Для сравнения групп одновременно по нескольким признакам используют методы двумерного и многофакторного анализа, например, регрессионный анализ, многофакторный дисперсионный анализ и др.

Пример бизнес-задачи: оценка влияния уровня образования (среднее профессиональное, высшее, научная степень) на зарплату и число полётов за границу в год.

В этом юните мы разобрали общий алгоритм проверки статистических гипотез и научились выбирать подходящий статистический тест. В следующем юните мы узнаем, как проверить распределение признаков на нормальность.