# Взаимодействия между переменными

## Covariation

Ковариация показывает, как изменяется одна величина при изменении другой.

Более формально: ковариация помогает определить, какая у этих величин совместная изменчивость.

Ковариация может быть положительной, отрицательной или равной нулю.

Ковариация показывает только прямое соотношение, то есть линейную зависимость, когда одна величина меняется пропорционально изменению другой. При квадратичной завимимости (y=x^2) ковариация связи не покажет

Формула ковариации:

`covar = 1 / (N - 1) * sum((x - x_ср) * (y - y_ср)) для пар (x, y) из X, Y`

In [1]:
from functions import mean

def covar(X: list[float], Y: list[float]) -> float:
    X_len = len(X)
    assert X_len == len(Y), "Sets should contain same amount of samples"

    X_mean, Y_mean = mean(X), mean(Y)
    sum_of_centered_products = sum([(X[i] - X_mean)*(Y[i] - Y_mean) for i in range(X_len)])
    return 1 / (X_len - 1) * sum_of_centered_products

In [2]:
covar([i for i in range(5)], [i*5 for i in range(5)])

12.5

Проблема ковариации в том, что её значение значение зависит от единиц измерения и масштаба величин.

Пусть ковариация covar(X, Y) = 12.5. Насколько связь сильная? Связь между величинами есть, но по значению ковариации определить силу связи нельзя.

Для определения силы связи используют коэффициент корреляции Пирсона

## Correlation

Ковариация зависит от масштаба величин, именно это мешает интерпретировать её абсолютное значение. Чем больше масштаб величины, тем больше у неё разброс. 

За разброс отвечает стандартное отклонение. Следовательно, поделив ковариацию на среднеквадратичное отклонение каждой из величин, можно получить значение в промежутке от -1 до 1.

Данный процесс называется **нормализацией**

`corr = covar(X, Y) / (std(X) * std(Y))`

In [3]:
from functions import covar, std

def corr(X: list[float], Y: list[float]) -> float:
    return covar(X, Y) / (std(X) * std(Y))

In [4]:
corr([i for i in range(5)], [i*5 for i in range(5)])

1.0

Взглянем на следующий пример.

In [20]:
X = [i for i in range(10)]
Y = [i for i in range(10)]

print(f"Corr before adding outlier: {round(corr(X, Y), 2)}")

Y[3] = 200  # выброс

print(f"Corr after adding outlier: {round(corr(X, Y), 2)}")

Corr before adding outlier: 1.0
Corr after adding outlier: -0.13


В набор данных был добавлен выброс, вследствие чего коэффициент корреляции изменил свое значение и стал указывать на обратную связь между величинами. 

Отсюда вывод: при наличии выбросов использовать коэффициент корреляции Пирсона нельзя.

TODO:

1. Геометрический смысл коэффициента корреляции Пирсона. Понимание не только формулы, но и геометрического смысла этого показателя позволит глубже осознать связи между переменными и корректнее интерпретировать коэффициент в разных ситуациях.

2. Коэффициенты корреляции Спирмена и Кендала. Эти коэффициенты помогают рассчитать корреляцию для данных с нелинейной зависимостью и с выбросами. Знание разных коэффициентов корреляции поможет вам подобрать наиболее подходящий метод анализа для конкретной задачи.

3. Связь коэффициента корреляции Пирсона и линейной регрессии. Изучение этой связи поможет лучше понять оба метода и научиться применять их для решения разных аналитических задач.

## Group Mean