# <center>ПАРАМЕТРИЧЕСКИЕ ТЕСТЫ</center>

Проверка на "нормальность" необходима, чтобы выбрать, какие статистические тесты использовать:

* параметрические, если распределение признака нормальное;

* или непараметрические, если распределение признака отлично от нормального или о нём нет информации.

Все функции, которые реализуют параметрические тесты в библиотеках Python:

1. на вход принимают:

- выборки или их параметры;

- параметры проверяемой гипотезы;

2. на выход отдают:

- уровень значимости p (p-value);

- дополнительные параметры (в большинстве случаев они нам не нужны).

Далее будем считать, что все данные распределены нормально, однако в жизни следует перед выбором теста обязательно проверять данные на нормальность.

## ОДНОВЫБОРОЧНЫЙ T-КРИТЕРИЙ

Одновыборочный t-критерий (t-test) используют, чтобы сравнить среднее значение признака с его заданным значением.

Одновыборочный t-критерий реализован в функции <u>ttest_1samp()</u> в модуле stats библиотеки scipy.

Основные входные параметры:

* a — выборочные данные;
* popmean — ожидаемое среднее значение признака;
* alternative — вид альтернативной гипотезы:
* ‘two-sided’ (двусторонняя, используется по умолчанию);
* ‘less’ (левосторонняя);
* ‘greater’ (правосторонняя).

Примеры задач, когда может понадобиться использование теста:

- Необходимо проверить, что среднее время, которое пользователи проводят на сайте, больше 5 минут.

- Необходимо установить, соответствуют ли химические показатели товара заявленным на упаковке.

## ПРИМЕР ИСПОЛЬЗОВАНИЯ НА PYTHON

Бизнес-задача

Компания закупает батареи для своих устройств у определённого производителя. Раньше батареи работали 40 часов. Производитель утверждает, что батареи были улучшены и теперь работают дольше.

Компания хочет проверить, правда ли, что батареи работают больше 40 часов. Для этого случайным образом выбрали 20 батарей, замерили время их работы и получили следующие данные в часах: 41, 38, 40, 46, 40, 46, 41, 44, 43, 39, 36, 41, 37, 45, 38, 45, 38, 48, 42, 34.

Уровень значимости необходимо взять равным 0.05.

Решение

Сформулируем гипотезы в математическом виде:

* Нулевая гипотеза: среднее время работы батареи ($MU$) меньше или равно 40 часам 

($H_0 = MU <= 40$)

* Альтернативная гипотеза: среднее время работы батареи ($MU$) больше чем 40 часов 

($H_1 = MU > 40$)

## ДВУХВЫБОРОЧНЫЙ T-КРИТЕРИЙ

1. Двухвыборочный t-критерий (t-test) используют, чтобы сравнить средние значения в двух независимых группах.

2. Двухвыборочный t-критерий реализован в функции ttest_ind() в модуле stats библиотеки scipy.

Основные входные параметры:

* a, b — выборочные данные двух групп;
* alternative — вид альтернативной гипотезы:
* ‘two-sided’ (двусторонняя, используется по умолчанию);
* ‘less’ (левосторонняя);
* ‘greater’ (правосторонняя);
* equal_var — равны ли дисперсии в группах (по умолчанию равны).

Ограничения применения теста:

- Группы должны быть независимыми.

- Перед использованием необходимо установить равенство (или неравенство) дисперсий в выборках. От этого зависит значение параметра equal_var.

Проверить равенство дисперсии в группах можно с помощью тестов Левена или Бартлетта, которые реализованы в функциях <u>levene()</u> и <u>bartlett()</u> модуля stats библиотеки scipy:

Нулевая гипотеза обоих тестов утверждает, что дисперсии групп равны.
- На вход функции получают выборочные данные.

- На выход функции отдают p-значение.

Тест можно применять, только если данные в обеих выборках распределены нормально.

Проверку на нормальность нужно выполнить отдельно для каждой из двух групп. Если хотя бы в одной группе распределение отличается от нормального, необходимо обратиться к непараметрическим тестам.

Примеры задач, когда может понадобиться использование теста (при соблюдении всех его ограничений):

* Перед испытанием нового фитнес-тренажёра проверяют, что рост и вес в двух группах людей одинаков.

* Есть две выборки студентов из двух университетов. Необходимо узнать, есть ли статистически значимая разница в среднем количестве часов в неделю, которые студенты этих университетов тратят на учёбу.

## ПРИМЕР ИСПОЛЬЗОВАНИЯ НА PYTHON

Бизнес-задача

Компания закупает для своих устройств батареи у производителя «Заряд». Производитель «Планета» предлагает перейти на их батареи, утверждая, что они работают дольше. Компания хочет проверить, правда ли, что батареи «Планета» работают дольше, чем батареи «Заряд».

Для этого случайным образом выбрали по 20 батарей «Заряд» и «Планета», замерили время их работы и получили следующие данные в часах:

* Батареи «Заряд»: 41, 38, 40, 46, 40, 46, 41, 44, 43, 39, 36, 41, 37, 45, 38, 45, 38, 48, 42, 34.

* Батареи «Планета»: 40, 39, 42, 46, 41, 46, 42, 45, 44, 42, 38, 42, 38, 46, 39, 46, 40, 41, 43, 36.

Уровень значимости необходимо взять равным 0.05.

Решение

Сформулируем гипотезы в математическом виде:

* Нулевая гипотеза: среднее время работы батарей «Планета» ($MU_1$) меньше или равно среднему времени работы батарей «Заряд» ($MU_2$) 

($H_0 = MU_1 <= MU_2$)

* Альтернативная гипотеза: среднее время работы батарей «Планета» ($MU_1$) больше среднего времени работы батарей «Заряд» ($MU_2$) 

($H_1 = MU_1 > MU_2$)

## ОДНОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ (ANOVA)

Однофакторный дисперсионный анализ (ANOVA) используют, чтобы сравнить средние значения в более чем двух независимых группах.

Тест ANOVA реализован в функции <u>f_oneway()</u> в модуле stats библиотеки scipy.

Основные входные параметры:

* sample1, sample2, … — выборочные данные групп.

Ограничения применения теста:

- Группы должны быть независимыми.

Тест можно выполнять на группах с равной дисперсией.

Проверку равенства дисперсий также можно выполнить с помощью тестов Левена или Бартлетта. Если дисперсии не равны, необходимо обратиться к непараметрическим тестам.

Тест можно применять, только если данные в обеих выборках распределены нормально.

Проверку на нормальность нужно выполнить отдельно для каждой из двух групп. Если хотя бы в одной группе распределение отличается от нормального, необходимо обратиться к непараметрическим тестам.

Примеры задач, когда может понадобиться использование теста (при соблюдении всех его ограничений):

* Проводится эксперимент, в котором изучают влияние различных видов удобрений на урожайность растений. В эксперименте участвуют несколько выборок растений, к которым применяют разные виды удобрений (более двух).

* Проводится исследование, в котором изучают влияние различных диет на уровень холестерина у людей. В исследовании участвуют три группы людей, каждая из которых придерживается определённой диеты.

## ПРИМЕР ИСПОЛЬЗОВАНИЯ НА PYTHON

Бизнес-задача

Компания закупает для своих устройств батареи у производителя «Заряд». Производители «Планета» и «Энергия» предлагают перейти на их батареи, утверждая, что они работают дольше. Компания хочет проверить, правда ли, что между батареями трёх производителей есть разница во времени работы.

Уровень значимости необходимо взять равным 0.05.

Случайным образом выбрали по 20 батарей «Заряд», «Планета» и «Энергия», замерили время их работы и получили следующие данные в часах:

* Батареи «Заряд»: 31, 38, 30, 46, 40, 36, 38, 44, 43, 39, 36, 41, 37, 35, 38, 35, 38, 38, 42, 34.

* Батареи «Планета»: 36, 45, 41, 41, 35, 32, 34, 42, 48, 43, 41, 39, 35, 34, 52, 42, 44, 43, 35, 43.

* Батареи «Энергия»: 35, 37, 39, 49, 45, 26, 46, 32, 49, 41, 48, 41, 47, 37, 45, 41, 43, 38, 40, 43.

Решение

Сформулируем гипотезы в математическом виде:

- Нулевая гипотеза: среднее время работы батарей «Заряд» ($MU_1$), «Планета» ($MU_2$) и «Энергия» ($MU_3$) одинаковое 

($H_0 = MU_1 = MU_2 = MU3$)

- Альтернативная гипотеза: среднее время работы батарей ($MU_1$), «Планета» ($MU_2$) и «Энергия» ($MU_3$) не одинаковое.

($H_1 = MU_1 != MU_2 != MU3$)

## ПАРНЫЙ T-КРИТЕРИЙ

Парный t-критерий (t-test) используют, чтобы сравнить средние значения в двух зависимых группах.

Парный t-критерий реализован в функции <u>ttest_rel()</u> в модуле stats библиотеки scipy.

Основные входные параметры:

* a, b — выборочные данные двух зависимых групп;
* alternative — вид альтернативной гипотезы:
* ‘two-sided’ (двусторонняя, используется по умолчанию);
* ‘less’ (левосторонняя);
* ‘greater’ (правосторонняя).

Ограничения применения теста:

* Тест можно применять, только если данные в обеих выборках распределены нормально.
Проверку на нормальность нужно выполнить отдельно для каждой из двух групп. Если хотя бы в одной группе распределение отличается от нормального, необходимо обратиться к непараметрическим тестам.

Примеры задач, когда может понадобиться использование теста:

- Требуется оценить эффективность нового лекарства, сравнивая показатели здоровья (пульса / давления / уровня сахара в крови) одних и тех же пациентов до и после его применения.

- Требуется оценить эффективность рекламной кампании, сравнивая показатели продаж до и после её запуска.

## ПРИМЕР ИСПОЛЬЗОВАНИЯ НА PYTHON

Бизнес-задача

Компания закупает для своих устройств батареи у производителя «Заряд». Производитель «Планета» предлагает перейти на их батареи, утверждая, что они работают дольше. Компания хочет проверить, правда ли, что батареи «Планета» работают дольше, чем батареи «Заряд».

Уровень значимости необходимо взять равным 0.05.

При планировании эксперимента присутствовал эксперт, который сказал, что время работы батареи зависит от устройства, на котором проходит замер, то есть результаты эксперимента оказались зависимыми.

Случайным образом выбрали по 10 батарей «Заряд» и «Планета». На каждом из устройств сначала замерили время работы батареи одного производителя, затем — второго и получили следующие данные в часах:

* Батареи «Заряд»: 41, 34, 35, 47, 39, 42, 36, 43, 48, 38, 36, 47, 39, 32, 45, 40, 36, 39, 42, 46.

* Батареи «Планета»: 45, 42, 40, 43, 44, 41, 43, 39, 45, 45, 40, 43, 41, 42, 41, 41, 43, 46, 45, 42.

Решение

Сформулируем гипотезы в математическом виде:

- Нулевая гипотеза: среднее время работы батарей «Планета» ($MU_1$) меньше или равно среднему времени работы батарей «Заряд» ($MU_2$).

($H_0 = MU_1 <= MU_2$)

- Альтернативная гипотеза: среднее время работы батарей «Планета» ($MU_1$) больше среднего времени работы батарей «Заряд» ($MU_2$).

($H_1 = MU_1 > MU_2$)

## ОДНОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ (ANOVA) С ПОВТОРНЫМИ ИЗМЕРЕНИЯМИ

Однофакторный дисперсионный анализ (ANOVA) с повторными измерениями используют, чтобы сравнить средние значения в более чем двух зависимых группах.

Тест ANOVA с повторными измерениями реализован в функции <u>AnovaRM()</u> в модуле stats библиотеки statsmodels.

Основные входные параметры:

* data — датафрейм с выборочными данными (три колонками: id группы, id объекта, значение признака);
* within — название колонки с id группы;
* subject — название колонки с id объекта;
* depvar — название колонки со значением признака.

Ограничения применения теста:

* Тест можно применять, только если данные в обеих выборках распределены нормально.

Проверку на нормальность нужно выполнить отдельно для каждой из двух групп. Если хотя бы в одной группе распределение отличается от нормального, необходимо обратиться к непараметрическим тестам.

Примеры задач, когда может понадобиться использование теста:

* Требуется оценить эффективность нового лекарства, сравнивания показатели здоровья одних и тех же пациентов до его приёма и через каждую неделю после начала приёма (количество периодов — более двух).

* Требуется изучать влияние нового рекламного материала на покупательское поведение клиентов ежедневно на протяжении недели.

## ПРИМЕР ИСПОЛЬЗОВАНИЯ НА PYTHON

Бизнес-задача

Компания закупает для своих устройств батареи у производителя «Заряд». Производители «Планета» и «Энергия» предлагают перейти на их батареи, утверждая, что они работают дольше. Компания хочет проверить, правда ли, что между батареями трёх производителей есть разница во времени работы.

Уровень значимости необходимо взять равным 0.05.

При планировании эксперимента присутствовал эксперт, который сказал, что время работы батареи зависит от устройства, на котором проходит замер.

Случайным образом выбрали по пять батарей «Заряд», «Планета» и «Энергия». На одном устройстве замерили время работы батареи одного производителя, затем — второго, затем — третьего и получили следующие данные в часах:

* Батареи «Заряд»: 36, 45, 41, 41, 35.

* Батареи «Планета»: 32, 34, 42, 48, 43.

* Батареи «Энергия»: 41, 39, 35, 34, 52.

Решение

Сформулируем гипотезы в математическом виде:

- Нулевая гипотеза: среднее время работы батарей «Заряд» ($MU_1$), «Планета» ($MU_2$) и «Энергия» ($_MU_3$) одинаковое.

($H_0 = MU_1 = MU_2 = MU_3$)

- Альтернативная гипотеза: среднее время работы батарей «Заряд» ($MU_1$), «Планета» ($MU_2$) и «Энергия» ($_MU_3$) не одинаковое.

($H_1 = MU_1 != MU_2 != MU_3$)