## Урок 7. Непараметрические тесты

---

---
### Задание 1:  

Даны две  независимые выборки. Не соблюдается условие нормальности

x1  380,420, 290

y1 140,360,200,900

Сделайте вывод по результатам, полученным с помощью функции

---
### Решение:
Для проверки гипотезы о равенстве средних значений двух выборок при нарушении условия нормальности можно использовать непараметрический критерий Манна-Уитни.

Для проверки используем функцию mannwithneyu из модуля scipy.stats

---

In [2]:
from scipy.stats import mannwhitneyu

x1 = [380,420,290]
y1 = [140,360,200,900]

stat, p = mannwhitneyu(x1, y1, alternative='two-sided')
alpha = 0.05

if p > alpha:
    print("Нет статистически значимых различий между выборками (p-value = {:.3f})".format(p))
else:
    print("Обнаружены статистически значимые различия между выборками (p-value = {:.3f})".format(p))


Нет статистически значимых различий между выборками (p-value = 0.629)


> **Таким образом мы можем сделать вывод о том, что между выборками X1 и Y1 нет статистически значимых различий.**

---

---

### Задание 2:

Исследовалось влияние препарата на уровень давления пациентов. Сначала измерялось давление до приема препарата, потом через 10 минут и через 30 минут. Есть ли статистически значимые различия?

1е измерение до приема препарата: 150, 160, 165, 145, 155

2е измерение через 10 минут: 140, 155, 150,  130, 135

3е измерение через 30 минут: 130, 130, 120, 130, 125

---

### Решение:

Для проверки статистически значимых различий между измерениями давления будем использовать однофакторный дисперсионный анализ(ANOVA)

---

In [7]:
# импортируем модуль scipy
from scipy.stats import f_oneway 



# создаем три списка, содержащие измерения давления
before = [150, 160, 165, 145, 155]
after_10 = [140, 155, 150, 130, 135]
after_30 = [130, 130, 120, 130, 125]

# выполняем однофакторный дисперсионный анализ с помощью функции f_oneway
# из статистического модуля scipy.stats
f_value, p_value = f_oneway(before, after_10, after_30)

# тогда статистическая значимость различий будет определяться значением p_value.
# если p_value меньше заданного уровня значимости (обычно 0.05), то различия
# считаются статистически значимыми.

# выведем результаты анализа на экран:
print(f"p_value = {p_value:.5f}")

if p_value < 0.05:
    print("Различия в значениях давления статистически значимы")
else:
    print("Различия в значениях давления статистически не значимы")


p_value = 0.00047
Различия в значениях давления статистически значимы


В результате получаем вывод о наличии или отсутствии статистически значимых различий между измерениями давления.

> **Различия в значениях давления статистически значимы**

---

---

### Задание 3:

Сравните 1 и 2 е измерения, предполагая, что 3го измерения через 30 минут не было.

---

### Решение:

Для сравнения первого и второго измерений давления можно использовать двухвыборочный t-тест для независимых выборок.

In [11]:
# импортируем модуль ttest_ind из библиотеки scipy
from scipy.stats import ttest_ind


# создаем три списка, содержащие измерения давления
before = [150, 160, 165, 145, 155]
after_10 = [140, 155, 150, 130, 135]

# проводим t-тест для выборок before и after_10
t_value, p_value = ttest_ind(before, after_10)

# тогда статистическая значимость различий будет определяться значением p_value.
# если p_value меньше заданного уровня значимости (обычно 0.05), то различия
# считаются статистически значимыми.

# выведем результаты анализа на экран:
print(f"p_value = {p_value:.5f}")
if p_value < 0.05:
    print("Различия в значениях давления между первым и вторым измерениями статистически значимы")
else:
    print("Различия в значениях давления между первым и вторым измерениями статистически не значимы")



p_value = 0.05634
Различия в значениях давления между первым и вторым измерениями статистически не значимы


В результате получаем вывод о наличии или отсутствии статистически значимых различий между измерениями давления.

> **Различия в значениях давления между первым и вторым измерениями статистически не значимы**

---

---

### Задание 4:

Даны 3 группы  учеников плавания.

В 1 группе время на дистанцию 50 м составляют:

56, 60, 62, 55, 71, 67, 59, 58, 64, 67

Вторая группа : 57, 58, 69, 48, 72, 70, 68, 71, 50, 53

Третья группа: 57, 67, 49, 48, 47, 55, 66, 51, 54

---

### Решение:

Для анализа различий между группами можно использовать критерий Крускала-Уоллиса, который 
используется для определения наличия статистически значимой разницы между медианами трех или более независимых групп.

Он считается непараметрическим эквивалентом однофакторного дисперсионного анализа .





In [13]:
# проведем тест Крускала-Уоллиса, используя функцию kruskal() из библиотеки scipy.stats:
from scipy.stats import kruskal

# создаем списки данных для каждой группы:
group1 = [56, 60, 62, 55, 71, 67, 59, 58, 64, 67]
group2 = [57, 58, 69, 48, 72, 70, 68, 71, 50, 53]
group3 = [57, 67, 49, 48, 47, 55, 66, 51, 54]

# проводим анализ:
h_value, p_value = kruskal(group1, group2, group3)

# тогда статистическая значимость различий будет определяться значением p_value.
# если p_value меньше заданного уровня значимости (обычно 0.05), то различия
# считаются статистически значимыми.

# выведем результаты анализа на экран:
print(f"p_value = {p_value:.5f}")

if p_value < 0.05:
    print("Различия между группами статистически значимы")
else:
    print("Различия между группами статистически не значимы")




p_value = 0.06504
Различия между группами статистически не значимы


В результате получаем вывод о наличии или отсутствии статистически значимых различий между измерениями давления.

> **Различия между группами статистически не значимы**

---

---

### Задание 5:

Заявляется, что партия изготавливается со средним арифметическим 2,5 см. Проверить данную гипотезу, если известно, что размеры изделий подчинены нормальному закону распределения. Объем выборки 10, уровень статистической значимости 5%

2.51, 2.35, 2.74, 2.56, 2.40, 2.36, 2.65, 2.7, 2.67, 2.34

---

### Решение:

Для проверки данной гипотезы используется t-критерий Стьюдента. 


Шаг 1: Формулировка гипотезы.  
Нулевая гипотеза H0: среднее арифметическое равно 2.5.  
Альтернативная гипотеза H1: среднее арифметическое не равно 2.5.


Шаг 2: Определение уровня значимости. 
Уровень значимости alpha = 0.05.


Шаг 3: Определение критической области. 
Так как альтернативная гипотеза двусторонняя, то критическая область двусторонняя. Значит, критические значения t-критерия Стьюдента определяются из таблицы для alpha/2 = 0.025 и степеней свободы (n-1) = 9. Значение tкр = 2.262.


Шаг 4: Определение выборочного среднего и стандартного отклонения. 
Выборочное среднее (X) = 2.516, стандартное отклонение = 0.157.


Шаг 5: Определение значения статистики t. 
t-статистика вычисляется по формуле: 

```
t = (X - mu) / (s / sqrt(n)), 
```

где X - выборочное среднее, mu - гипотетическое среднее (в данном случае 2.5), s - стандартное отклонение, n - объем выборки.

```
t = (2.516 - 2.5) / (0.157 / sqrt(10)) = 0.95
```

Шаг 6: Принятие решения. 
Значение t = 0.95 не превышает критическое значение tкр = 2.262, поэтому мы не можем отвергнуть нулевую гипотезу на уровне значимости 5%. 

> **Значит, у нас нет статистически значимых оснований для того, чтобы считать, что среднее арифметическое отличается от 2.5 см.**
