# Проверка гипотез
В примерах использованы синтетические данные.


Ниже приведены тесты на нормальность (распределение значений случайной величины в данной выборке - распределение Гаусса) и взаимосвязи между случайными величинами

In [1]:
import numpy as np
data_uniform = np.random.rand(5000)
data_norm = np.random.randn(5000)
data_norm_ = np.random.randn(5000)*5 - 10

### Тест Shapiro-Wilk (основан на оценке дисперсии)

Для размера выборки N > 5000 значение статистики stat точно, но p-value может быть неточным.

Вероятность отклонить нуль-гипотезу около 5% в зависимости от размеров выборки https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.shapiro.html

In [2]:
from scipy.stats import shapiro
data1 = data_norm
stat, p = shapiro(data1)
print(stat)
print(p)
if (p < 0.05):
    print("Гипотеза о нормальности распределения отклонена")
else:
    print("Нет оснований отклонить гипотезу о нормальности распределения")


0.9993747161606656
0.08327653003700337
Нет оснований отклонить гипотезу о нормальности распределения


In [3]:
data2 = data_uniform
stat, p = shapiro(data2)
print(stat)
print(p)
if (p < 0.05):
    print("Гипотеза о нормальности распределения отклонена")
else:
    print("Нет оснований отклонить гипотезу о нормальности распределения")

0.9529838732971024
2.331490254390378e-37
Гипотеза о нормальности распределения отклонена


### Комментарии к коду:

В коде импортируется функция shapiro из библиотеки SciPy, которая реализует тест Шапиро-Уилка. Во временную переменную `data1` копируется сгенерированный массив `data_norm`.

Функция shapiro() возвращает два значения:

1. stat - статистика теста Шапиро-Уилка (ближе к 1, следовательно, распределение ближе к нормальному)
2. p - вероятность получить такие данные, если распределение нормальное

На основе полученных данных делаем вывод при помощь if-else:
- если p < 0.05, то распределение не нормальное
- в ином случае принимаем распредление как нормальное

### Анализ результата:

```
0.9993747161606656
0.08327653003700337
Нет оснований отклонить гипотезу о нормальности распределения
```

1. Статистический вывод:

 - Поскольку p-value (0.0833) > 0.05, мы не отклоняем нулевую гипотезу
 - Нулевая гипотеза: "Данные имеют нормальное распределение"
2. Степень уверенности:

 - p-value = 0.0833 находится совсем рядом с порогом 0.05, что означает, что данные практически нормальны, но есть небольшие отклонения

```
0.9529838732971024
2.331490254390378e-37
Гипотеза о нормальности распределения отклонена
```

- согласно статистике теста Шапиро-Уилка (значение stat $\approx$ 0.95, что близко к 1) казалось бы можно сделать вывод о том, что распределение нормальное, но результат p-value = 2.33 * 10^(-37) указывает на сильное отклонение, следовательно, происходит явное нарушение нормальности

### Тест Андерсона-Дарлинга для разных законов распределения
 https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.anderson.html

Critical values provided are for the following significance levels:

normal/exponential
15%, 10%, 5%, 2.5%, 1%

**If the returned statistic is larger than these critical values then for the corresponding significance level, the null hypothesis that the data come from the chosen distribution can be rejected**.


In [4]:
from scipy.stats import anderson
result = anderson(data1)
stat, critical_values, significance_level=result
print(stat)
print(critical_values)
print(significance_level)

0.6703078626978822
[0.576 0.655 0.786 0.917 1.091]
[15.  10.   5.   2.5  1. ]


In [5]:
result = anderson(data2)
stat, critical_values, significance_level=result
print(stat)
print(critical_values)
print(significance_level)

59.73179749186602
[0.576 0.655 0.786 0.917 1.091]
[15.  10.   5.   2.5  1. ]


### Комментарии к коду:

В коде функция anderson для теста Андерсона-Дарлинга из библиотеки SciPy.

Функция anderson() объект с результатами. Результаты записываются в преременные:

1. stat - статистика теста Андерсона-Дарлинга
2. critical_values - критические значения для разных уровней значимости
3. significance_level - соответствующие уровни значимости (в процентах)

Выводятся результаты.

### Анализ результатов:

```
0.6703078626978822
[0.576 0.655 0.786 0.917 1.091]
[15.  10.   5.   2.5  1. ]
```

Сравнение статистики с критическими значениями:

- 0.670 > 0.576: На уровне 15%: ОТКЛОНЯЕМ нормальность
- 0.670 > 0.655: На уровне 10%: ОТКЛОНЯЕМ нормальность
- 0.670 < 0.786: На уровне 5%: НЕ ОТКЛОНЯЕМ нормальность
- 0.670 < 0.917: На уровне 2.5%: НЕ ОТКЛОНЯЕМ нормальность
- 0.670 < 1.091: На уровне 1%: НЕ ОТКЛОНЯЕМ нормальность

Выводы:

- На стандартном уровне 5% значимости данные нормальны
- На более либеральных уровнях (10%, 15%) есть сомнения
- Это пограничный случай - данные близки к нормальным, но не идеальны

```
59.73179749186602
[0.576 0.655 0.786 0.917 1.091]
[15.  10.   5.   2.5  1. ]
```

Сравнение статистики с критическими значениями:

- 59.731 > 0.576: На уровне 15%: ОТКЛОНЯЕМ нормальность
- 59.731 > 0.655: На уровне 10%: ОТКЛОНЯЕМ нормальность
- 59.731 > 0.786: На уровне 5%: ОТКЛОНЯЕМ нормальность
- 59.731 > 0.917: На уровне 2.5%: ОТКЛОНЯЕМ нормальность
- 59.731 > 1.091: На уровне 1%: ОТКЛОНЯЕМ нормальность

Выводы:

Статистика 59.7 - это указывает на очень сильное отклонение от нормальности.
Данные определенно не нормальны.

### Коэффициент корреляции Пирсона

In [6]:
from scipy.stats import pearsonr
data3 = data_norm_
corr, p = pearsonr(data1, data3)
print(corr)
print(p)

-0.01867957007209337
0.18662475415150218


### Комментарии к коду

В данном коде приведен пример корреляции между разными наборами данных.

Импорт функции pearsonr из scipy, которая вычисляет коэффициент корреляции Пирсона и p-value
`data3 = data_norm_` - создается новый набор данных (скорее всего, нормально распределенный)
Вычисление корреляции: pearsonr(data1, data3) - вычисляет корреляцию между data1 и data3
Вывод результатов:

 - corr - коэффициент корреляции Пирсона (-1 ≤ corr ≤ 1)
 - p - p-value для проверки гипотезы о значимости корреляции

Интерпретация `pearsonr`:

Коэффициент корреляции (corr):

1. от -1 до 1
 - 1: идеальная прямая зависимость
 - -1: идеальная обратная зависимость
 - 0: отсутствие линейной зависимости
2. p-value (p):
 - Проверяет гипотезу: "корреляция = 0" (нет линейной связи)
 - Если p < 0.05: корреляция статистически значима
 - Если p ≥ 0.05: нет оснований считать корреляцию значимой

### Интерпретация вывода:

```
-0.01867957007209337
0.18662475415150218
```

Таким образум между data3 и data_norm_ почти полностью отсутствует линейная зависимость. p $\approx$ 0.19 указывает на то, что корреляция не явлется значимой, данные между собой не коррелирует, то есть не зависят друг от друга.

In [7]:
data4 =2*data2
corr, p = pearsonr(data4, data2)
print(corr)
print(p)

1.0
0.0


### Комментарии к коду:

В коде ркализована корреляция между линейно связанными данными

Линейное преобразование: data4 = 2 * data2 - создается новый набор данных, каждый элемент которого в 2 раза больше соответствующего элемента data2

### Интерпретация результата

- corr = 1 указывает на идеальную прямую зависимость
- p = 0 - корреляция статистически значима, следовательно, с высокой вероятностью наблюдаемая связь между переменными не случайна.

### Использование библиотеки pandas

Создание объектов типа Series:

In [8]:
import pandas as pd
s1=pd.Series(data2)
s1

0       0.088153
1       0.177399
2       0.143633
3       0.929413
4       0.834238
          ...   
4995    0.824547
4996    0.106568
4997    0.636530
4998    0.703531
4999    0.444874
Length: 5000, dtype: float64

In [9]:
s2=pd.Series(data4)
s2

0       0.176307
1       0.354799
2       0.287267
3       1.858826
4       1.668475
          ...   
4995    1.649094
4996    0.213136
4997    1.273061
4998    1.407061
4999    0.889748
Length: 5000, dtype: float64

In [10]:
s1.corr(s2)

np.float64(1.0)

In [11]:
s1.cov(s2)

np.float64(0.16790025134255426)

### Комментарии к коду

Вычисляется корреляция и ковариация s1 и s2.

corr = 1, что говорит о:
- Идеальная положительная линейная зависимость
- Значения s1 и s2 связаны линейным уравнением: s2 = a * s1 + b (где a > 0)
- Все точки лежат на одной прямой линии

cov = 0.168

- Положительная ковариация - переменные изменяются в одном направлении


### Коэффициент корреляции Спирмена (ранговая корреляция)

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.spearmanr.html


In [12]:
from scipy.stats import spearmanr
corr, p = spearmanr(range(200), [i*2 for i in range(200)])
print(corr)
print(p)

1.0
0.0


### Комментарии к коду

Импортируется функция `spearmanr` для вычисления корреляции Спирмена.
генерируются данные 
Вычисление коэффициента корреляции Спирмана по данным.

### Интерпретация результата

В результате получаем:
- corr = 1.0 - монотонная зависимость между переменными (увеличение/уменьшение одной переменной приводит к аналогичным последствиям для второй переменной)
- p = 0 - вероятность получения такой корреляции случайно нулевая

In [13]:
list1 = np.array(range(200))
list1[list1%2]=np.random.randint(500,1000)
list2=[200 - i for i in range(200)]
corr, p = spearmanr(list1, list2)
print(corr)
print(p)

-0.9405981176773022
7.784272118124365e-95


### Комментарии к коду

Создадим list1 с модификацией (Вернем остатки от деления на 2: 0 или 1)
Создадим list2 - строго убывающую последовательность от 200 до 1

### Интерпретация результата

- corr = -0.94 отрицательная монотонная зависимость между наборами данных - когда один набор данных увеличивается, другой уменьшается
- p = 7.78 * 10^95 -  вероятность получения такой корреляции случайно нулевая

### Тест хи-квадрат
Проверяет, являются ли две категориальные переменные связанными или независимыми. Исходные данные - таблица частот для каждого значения.
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2_contingency.html

In [14]:
from scipy.stats import chi2_contingency
table = np.array([[10, 10, 20], [20, 20, 20]])
stat, p, dof, expected = chi2_contingency(table)
print(stat)
print(p)

2.7777777777777777
0.24935220877729622


### Комментарии к коду

Импортируется функция `chi2_contingency` для выполнения хи-квадрат теста сопряженности (проверки независимости категориальных переменных).
Создается таблица сопряженности 2×3 (2 строки, 3 столбца).
Выполняется хи-квадрат теста. и выводятся результаты.

### Интерпретация результата:

 - stat = 2.7778 - это мера расхождения между наблюдаемыми и ожидаемыми частотами. Чем больше значение, тем сильнее зависимость между строками и столбцами. Здесь значение относительно небольшое.
 - p-value: p = 0.2494 (0.2494 > 0.05) - это означает, что нет оснований отвергнуть нулевую гипотезу.

 Таким образом, нет статистически значимых доказательств зависимости между строками и столбцами.

In [15]:
table = np.array([[100, 100, 100,100, 100], [150, 100, 100, 100, 200]])
stat, p, dof, expected = chi2_contingency(table)
print(stat)
print(p)

24.179487179487175
7.352282922522137e-05


### Комментарии к коду

Создается таблица сопряженности 2х5. Выполняется хи-квадрат теста и выводятся результаты.

### Интерпретация результата

- Статистика хи-квадрат: 24.18 - большое значение указывает на существенные расхождения между наблюдаемыми и ожидаемыми частотами.
- p-value: 7.35e-05 - сильно меньше 0.05 - есть основания отвергнуть гипотезу.

Таким образом,оОтвергаем нулевую гипотезу. Есть статистически значимая зависимость между строками и столбцами.