## Статистическая значимость

#### 1. Может ли быть так, чтобы линейная зависимость в данных наблюдалась в результате случайного совпадения?

#### 2. Как добиться 95%-ной уверенности в том, что корреляция между двумя переменными значима, а не случайна?

**Нулевая гипотеза H0** заключается в том, что между двумя переменными нет связи, или, говоря более формально, коэффициент корреляции равен 0.
**Альтернативная гипотеза H1** заключается в том, что связь есть, и она может быть как положительной, так и отрицательной. 

Для проверки гипотез в контексте линейной регрессии мы будем использовать **распределение Стьюдента**, а не нормальное. Сначала построим график распределения Стьюдента и выделим на нем 95%-ный критический интервал.

In [19]:
# Проверка значимости для данных с предполагаемой линейной зависимостью

from scipy.stats import t
from math import sqrt

# Размер выборки
n = 10

lower_cv = t(n - 1).ppf(.025)
upper_cv = t(n - 1).ppf(.975)

# Коэффициент корреляции
# на освании данных https://bit.ly/2KF29Bd
r = 0.9575860952087218

# Выполняем тест
test_value = r / sqrt((1 - r**2) / (n - 2))

print(f"Тестовые значение (t-статистика): {test_value}")
print(f"Критический интервал: {lower_cv}, {upper_cv}")

if test_value < lower_cv or test_value > upper_cv:
    print("Корреляция обоснована, отвергаем H0")
else:
    print("Корреляци не обоснована, нельзя отвергнуть H0")

# Вычисляем p-значение
df = n - 2
if test_value > 0:
    p_value = 1.0 - t(df).cdf(test_value)
else:
    p_value = t(df).cdf(test_value)

# Двусторонний тест, поэтому умножаем на 2
p_value = p_value * 2
print(f"p-значение: {p_value}")

Тестовые значение (t-статистика): 9.399575927136752
Критический интервал: -2.2621571628540997, 2.2621571628540993
Корреляция обоснована, отвергаем H0
p-значение: 1.3450346498800059e-05


#### **Выводы:**
Тестовое значение составляет примерно 9,39958, что определенно находится за пределами диапазона (−2,262, 2,262), поэтому можно отвергнуть нулевую гипотезу и признать, что наша корреляция не случайна. Это связано с тем, что p-значение весьма значимо: 0,00000134. Это намного ниже нашего порога в 0,05, так что мы имеем дело не с совпадением: корреляция обоснована. Вполне логично, что p-значение так мало, потому что расположение точек очень похоже 
на прямую. Крайне маловероятно, что они выстроились в ряд случайно.

### **Важно правило:**
Чем больше у вас данных, тем меньше p-значение, особенно если эти данные тяготеют к прямой линии.

### **Общее правило таково:**
Чем больше у вас данных, расположение которых ста-
бильно напоминает прямую, тем более статистически значимым будет p-значение 
для корреляции. Чем меньше данных или чем шире они рассеяны — тем выше 
будет p-значение, и придется заключить, что корреляция возникла по случай-
ному стечению обстоятельств1
.

### Коэффициент детерминации

**Коэффициент детерминации**, который обозначается **r^2** , измеряет, какая доля дисперсии одной переменной объясняется дисперсией другой переменной. Он также является квадратом коэффициента корреляции r. Чем ближе r к идеальной корреляции (−1 или 1), тем ближе к 1. По сути, показывает, насколько сильно две переменные связаны друг с другом.

In [21]:
import pandas as pd

# Загружаем данные в датафрейм pandas
df = pd.read_csv('https://bit.ly/2KF29Bd', delimiter=",")

# Выводим коэффициенты детерминации между переменными
coeff_determination = df.corr(method='pearson') ** 2
print(coeff_determination)

          x         y
x  1.000000  0.916971
y  0.916971  1.000000


Коэффициент детерминации 0.91 интерпретируется так: 91% дисперсии переменной x объясняется переменной y (и наоборот), а оставшиеся 9% - это шум, который вызван другими неучтенными переменными. 
0.91 - это довольно хороший коэффициент детерминации, который показывает, что x и y объясняют дисперсию друг друга.