# Теория вероятностей и математическая статистика (семинары)
## Урок 7. Непараметрические тесты

In [1]:
import numpy as np
import scipy.stats as stats

## Задача 1
Даны две независимые выборки. Не соблюдается условие нормальности

Выберете тест и проверьте, есть ли различия между выборками:

x1 380,420, 290

y1 140,360,200,900

### Решение
В задаче указано, что выборки независимы. Поэтому для выявления статистических различий будем использовать критерий **Манна-Уитни**

In [2]:
x1 = np.array([47, 90, 75])
y1 = np.array([140, 360, 200, 900])

stats.mannwhitneyu(x1, y1)

MannwhitneyuResult(statistic=0.0, pvalue=0.05714285714285714)

### Ответ:
Значение pvalue=0.057 - больше, чем a = 0.05, что дает нам право сделать заключение о том, что в выборках статистичеких различий не обнаружено.

**Вывод:** Статистических различий **нет**

# 
## Задача 2
Сделайте вывод по результатам, полученным с помощью функции

Исследовалось влияние препарата на уровень давления пациентов. Сначала измерялось давление до приема препарата, потом через  10 минут и через 30 минут. Есть ли статистически значимые различия?

1е измерение до приема препарата: 150, 160, 165, 145, 155

2е измерение через 10 минут: 140, 155, 150, 130, 135

3е измерение через 30 минут: 130, 130, 120, 130, 125

### Решение
В задаче указано, что проводились повторные измерения давления на одних и тех же пациентах, поэтому для решения используем критерий **Фридмана**

In [3]:
x1 = np.array([150, 160, 164, 145, 155])
x2 = np.array([140, 155, 150, 130, 135])
x3 = np.array([130, 130, 120, 130, 125])

stats.friedmanchisquare(x1, x2, x3)

FriedmanchisquareResult(statistic=9.578947368421062, pvalue=0.00831683351100441)

### Ответ:
Значение pvalue=0.008 - меньше, чем a = 0.05, что дает нам право сделать заключение о том, что в выборках есть статистичекие различия.

**Вывод:** Статистические различий **есть**

# 
## Задача 3
Сравните 1 и 2 е измерения, предполагая, что 3го измерения через 30 минут не было.

### Решение
В этом случае у нас есть всего 2 зависимых выборки, поэтому для решения используем критерий **Уилкоксона**

In [4]:
stats.wilcoxon(x1, x2)

WilcoxonResult(statistic=0.0, pvalue=0.0625)

### Ответ:
Значение pvalue=0.0625 - больше, чем a = 0.05, что дает нам право сделать заключение о том, что в выборках нет статистичеких различий.

**Вывод:** Статистических различий **нет**

# 
## Задача 4
Даны 3 группы учеников плавания.

В 1 группе время на дистанцию 50 м составляют:

56, 60, 62, 55, 71, 67, 59, 58, 64, 67

Вторая группа : 57, 58, 69, 48, 72, 70, 68, 71, 50, 53

Третья группа: 57, 67, 49, 48, 47, 55, 66, 51, 54

### Решение
В задаче указано, что используются 3 разные группы учеников. Остюда делаем вывод, что выборки независимые. Так, как количество выборок более 2-х, то для решения используем критерий **Крускала - Уоллиса**

In [5]:
x1 = np.array([56, 60, 62, 55, 71, 67, 59, 58, 64, 67])
x2 = np.array([57, 58, 69, 48, 72, 70, 68, 71, 50, 53])
x3 = np.array([57, 67, 49, 48, 47, 55, 66, 51, 54])

stats.kruskal(x1, x2, x3)

KruskalResult(statistic=5.465564058257224, pvalue=0.0650380998590494)

### Ответ:
Значение pvalue=0.065 - больше, чем a = 0.05, что дает нам право сделать заключение о том, что в выборках нет статистичеких различий.

**Вывод:** Статистических различий **нет**

# 
## Задача 5
Заявляется, что партия изготавливается со средним арифметическим 2,5 см. Проверить данную гипотезу, если известно, что размеры изделий подчинены нормальному закону распределения. Объем выборки 10, уровень статистической значимости 5%

2.51, 2.35, 2.74, 2.56, 2.40, 2.36, 2.65, 2.7, 2.67, 2.34

Задачу решить вручную

### Решение
В нашем случае указано, что размеры изделий подчинены нормльному закону распределения. Так же, на не известна стандартное квадратическое отклонение генеральной совокупности, поэтому для решения используем критерий **Стьюдента**

$$ t_{н}= \frac{( \bar x - μ )}{σ} \sqrt{ n } $$

Среднее наблюдаемых значений равно:

In [6]:
x = np.array([2.51, 2.35, 2.74, 2.56, 2.40, 2.36, 2.65, 2.7, 2.67, 2.34])
#sum(x)/len(x)
x.mean()

2.5279999999999996

Стандартное несмещенное отклонение в наблюдаемой выборке:

In [7]:
x.std(ddof = 1)

0.1572542173961923

μ = 2.5 - из условия задачи

n = 10 - длина выборки

Вычисляем $t_н$:

In [8]:
tn = (x.mean()-2.5)/(x.std(ddof=1)/np.sqrt(len(x)))
tn

0.5630613661802959

Проверим наши расчеты со встроенной функцией:

In [9]:
stats.ttest_1samp(x,2.5)

Ttest_1sampResult(statistic=0.5630613661802959, pvalue=0.5871439993940628)

Статистики сошлись. 

Статистика по критерию Стьюдента получилась равной **0.563**, а табличное значение для 9 степеней свободы и p=0.95 равно **1.833**. Вычисленное значение на графике закона нормального распределения находится левее табличного.

### Ответ:
Значение pvalue=0.587 - больше, чем a = 0.05, что дает нам право сделать заключение о том, что мы принимаем нулевую гипотезу, и что наблюдаемые значения подчиняются закону нормального распределения.

**Вывод:** Статистических различий **нет**