## Урок 7. Непараметрические тесты

Все тесты, кроме теста в Задаче 5 проверяют "одинаковость" распределения, поэтому гипотезы сформулированы именно таким образом.

In [1]:
import numpy as np
from scipy.stats import mannwhitneyu, friedmanchisquare, wilcoxon, kruskal, t as t_stat

### Задача 1.

Даны две независимые выборки. Не соблюдается условие нормальности 
- x1 = [380, 420, 290]
- y1 = [140, 360, 200, 900]

Сделайте вывод по результатам, полученным с помощью функции, имеются ли статистические различия между группами?

Ну раз выборки независимые, условия нормальности не соблюдаются, и в них - разное количество наблюдений, то попробуем использовать критерий Манна-Витни.

Сформулируем гипотезы:

$H_0: F(X_1) = F(Y_1)$

$H_1: F(X_1) \neq F(Y_1)$

где F - функция распределения

Определим уровень значимости $\alpha = 0.05$

In [2]:
X1 = np.array([380, 420, 290])
Y1 = np.array([140, 360, 200, 900])

mannwhitneyu(X1, Y1)

MannwhitneyuResult(statistic=8.0, pvalue=0.6285714285714286)

p_value значительно превышает $\alpha, =>$ нет оснований отвергать нулевую гипотезу.<br>
**Вывод:** статистически значимых различий в выборках не наблюдается.

### Задача 2.

Исследовалось влияние препарата на уровень давления пациентов. Сначала измерялось давление до приема препарата, потом через 10 минут и через 30 минут. 

Есть ли статистически значимые различия между измерениями давления?<br>
В выборках не соблюдается условие нормальности.

- 1е измерение до приема препарата: 150, 160, 165, 145, 155
- 2е измерение через 10 минут: 140, 155, 150, 130, 135
- 3е измерение через 30 минут: 130, 130, 120, 130, 125

Здесь даны 3 зависимые выборки повторных исследований, без соблюдения условий нормальности $=>$ будем применять тест Фридмана. 

Сформулируем гипотезы:

$H_0: F(X_1) = F(Y_1)$

$H_1: F(X_1) \neq F(Y_1)$

где F - функция распределения

Определим уровень значимости $\alpha = 0.05$

In [3]:
X1 = np.array([150, 160, 165, 145, 155])
X2 = np.array([140, 155, 150, 130, 135])
X3 = np.array([130, 130, 120, 130, 125])

friedmanchisquare(X1, X2, X3)

FriedmanchisquareResult(statistic=9.578947368421062, pvalue=0.00831683351100441)

p_value ниже уровня значимости, следовательно есть все основагия отвергнуть нулевую гипотезу.<br>
**Вывод:** статистические различия между выборками есть. Значит препарат - оказывает влияние.

### Задача 3.

Сравните 1 и 2 е измерения из задачи 2, предполагая, что 3го измерения через 30 минут не было. 

Есть ли статистически значимые различия между измерениями давления?

Здесь мы имеем дело с двумя зависимыми выборками (ну и как обычно - даже без намека на нормальность распределения), а значит будем использовать критерий Уилкоксона.

Сформулируем гипотезы:

$H_0: F(X_1) = F(Y_1)$

$H_1: F(X_1) \neq F(Y_1)$

где F - функция распределения

Определим уровень значимости $\alpha = 0.05$

In [4]:
X1 = np.array([150, 160, 165, 145, 155])
X2 = np.array([140, 155, 150, 130, 135])

wilcoxon(X1, X2)

WilcoxonResult(statistic=0.0, pvalue=0.0625)

p_value превышает уровень значимости, следовательно, оснований отвергать нулевую гипотезу нет.<br>
**Вывод:** статистически значимых различий не выявлено. Значит, при текущих условиях препарат не работает

### Задача 4.

Даны 3 группы учеников плавания. Не соблюдается условие нормальности. Время на 50 метров, в группах распределяется так:
1. 56, 60, 62, 55, 71, 67, 59, 58, 64, 67
2. 57, 58, 69, 48, 72, 70, 68, 71, 50, 53
3. 57, 67, 49, 48, 47, 55, 66, 51, 54

Есть ли статистически значимые различия между группами?

Здесь есть несколько независимых групп, без соблюдения условий нормальности. Значит будем использовать тест Краскала-Уоллиса.

Сформулируем гипотезы:

$H_0: F(X_1) = F(Y_1)$

$H_1: F(X_1) \neq F(Y_1)$

где F - функция распределения

Определим уровень значимости $\alpha = 0.05$

In [5]:
X1 = np.array([56, 60, 62, 55, 71, 67, 59, 58, 64, 67])
X2 = np.array([57, 58, 69, 48, 72, 70, 68, 71, 50, 53])
X3 = np.array([57, 67, 49, 48, 47, 55, 66, 51, 54])

kruskal(X1, X2, X3)

KruskalResult(statistic=5.465564058257224, pvalue=0.0650380998590494)

p_value превышает уровень значимости, следовательно, нет оснований отвергать нулевую гипотезу.<br>
**Вывод:** статистически значимой разницы между выборками нет. Значит все спортсмены имеют схожую подготовку.

### Задача 5.

Заявляется, что партия изготавливается со средним арифметическим 2,5 см. Проверить данную гипотезу, если известно, что размеры изделий подчинены нормальному закону распределения. 

- Объем выборки 10,
- уровень статистической значимости 5%
- Значения: 2.51, 2.35, 2.74, 2.56, 2.40, 2.36, 2.65, 2.7, 2.67, 2.34

In [6]:
x = np.array([2.51, 2.35, 2.74, 2.56, 2.40, 2.36, 2.65, 2.7, 2.67, 2.34])
n = x.shape[0]
mu = 2.5
alpha = 0.05

Раз распределение нормальное, а количество наблюдений небольшое - будем использовать t-тест.

Сформулируем гипотезы:

$H_0: \mu = 2.5$

$H_1: \mu \neq 2.5$

Рассчитаем дополнительные параметры (выборочное среднее и дисперсию):

$\displaystyle \overline{x} = \frac{\sum_{i=1}^n x}{n}$

$\displaystyle D = \frac{\sum_{i=1}^n(x - \overline{x})}{n - 1}$

In [7]:
avg_x = x.mean()
D = x.var(ddof=1)

avg_x, D

(2.5279999999999996, 0.02472888888888891)

Определим критические значения:

In [8]:
critical_1 = t_stat.ppf(alpha/2, n-1)  # alpha/2 т.к. - двусторонняя гипотеза
critical_2 = t_stat.ppf(1 - alpha/2, n-1)
critical_1, critical_2

(-2.262157162740992, 2.2621571627409915)

Проведем тест

$\displaystyle t = \frac{\overline{x} - \mu}{\sqrt{D} / \sqrt{n}} = \frac{2.528 - 2.5}{\sqrt{0.025} / \sqrt{10}} = 0.563$

In [9]:
t = (avg_x - mu) / (np.sqrt(D) / np.sqrt(n))
t

0.5630613661802959

Отклонение среднего диаметра по выборке не превышает критических значения, а значит нет оснований отвергать нулевуюю гипотезу.<br>
**Вывод:** партия шариков соответствует заявленным параметрам.