## Урок 6

### Взаимосвязь величин. Параметрические и непараметрические показатели корреляции. 

### Корреляционный анализ

**Корреляция**  — математический показатель, по которому можно судить, есть ли статистическая взаимосвязь между 

случайными величинами. Если такая связь существует, изменения значений одной величины  

влияют на другую.


**Коэффициент корреляции** показывает, насколько велика взаимосвязь. Обозначается символами $R$ или $r$ и может 

принимать значения от -1 до 1 включительно.

Когда коэффициент корреляции близок к 1, между величинами наблюдается **прямая** связь:

увеличение одной величины сопровождается увеличением другой, и аналогично уменьшение одной величины

сопровождается уменьшением другой.

Если же коэффициент корреляции близок к -1, между величинами есть **обратная** корреляционная связь:

увеличение одной величины сопровождается уменьшением другой и наоборот.

Коэффициент корреляции, близкий к 0, говорит о том, что между величинами **нет связи**,

то есть изменение величин происходит независимо друг от друга, либо есть только нелинейная взаимосвязь.

**Пример 1**

Посчитаем корреляцию роста с весом хоккеистов из рассмотренного ранее датасета.

In [None]:
import numpy as np
import pandas as pd

In [None]:
df = pd.read_csv('csv/hockey_players.csv', encoding='cp1251', parse_dates=['birth'])
df = df.drop_duplicates(['name', 'birth'])

Для этого воспользуемся методом **corr ** из библиотеки **pandas**:

In [None]:
corr_matrix = df.loc[:, ['height', 'weight']].corr()
corr_matrix

Unnamed: 0,height,weight
height,1.0,0.693731
weight,0.693731,1.0


Мы получили матрицу корреляций. Корреляция между ростом и весом достаточно высока и имеет величину, почти равную 0.7:

In [None]:
corr_matrix.loc['height', 'weight']

0.69373056796630506

Величина корреляции положительна, так что можно сделать вывод, что чем выше рост хоккеиста, тем, как правило, больше его вес.

#### Взаимосвязь величин

Если две величины коррелируют, это может свидетельствовать о наличии **статистической связи** между ними. Причем говорить о ней 

мы можем для величин из одной выборки, что не гарантирует того, что подобная связь встретится и в другой выборке и 

должна будет иметь такую же природу. 

Корреляционный анализ просто интерпретируется, поэтому статистик может сделать ложный вывод о том, что между этими признаками 

существует причинно-следственная связь. Такой вывод нельзя делать на основании коэффициента корреляции — можно лишь сказать, 

что между признаками есть статистическая взаимосвязь.

Например, если рассмотреть данные о пожарах в городе, можно увидеть, что между материальными потерями, вызванными 

пожаром, и количеством пожарных, которые принимали участие в его тушении, есть сильная корреляция.

При этом ложным будет вывод о том, что большое количество пожарных, присутствующих на пожаре, приводит к увеличению ущерба от него. Он может привести к неправильному решению — уменьшить бригаду пожарных, чтобы сократить материальные потери.

Еще один пример того, как коррелирующие величины могут направить статистика по ложному следу: в городах с 

повышенным уровнем преступности зачастую количество полицейских тоже велико. Между количеством полицейских и преступностью есть 

положительная корреляция. Ложный вывод, который можно в таком случае сделать, —  решить, что причиной повышенной 

преступности стало увеличение штата полицейских, и сократить часть правоохранителей, чтобы снизить уровень преступности.

Если  ковариация не равна нулю, две случайные величины зависимы.

Высокая **корреляция** двух величин может свидетельствовать о том, что у них есть **общая причина** — несмотря на то, что 

прямого взаимодействия между двумя коррелирующими величинами нет. Например, наступление зимы может быть причиной и  роста 

заболеваемости простудой, и повышения расходов на отопление. Это как раз тот случай, когда две величины (число 

заболевших и расходы на отопление) коррелируют между собой, хотя они друг на друга напрямую не влияют.

Зато у них есть общая причина — зимний сезон.

Отсутствие корреляции между двумя величинами еще не говорит о том, что между показателями нет связи. 

Вполне возможно, что между признаками есть нелинейная зависимость, которую не может уловить коэффициент корреляции.

**Показатели корреляции**

В зависимости от характера переменных можно выбрать подходящий метод вычисления коэффициента корреляции.

Для интервальных и количественных признаков используется коэффициент корреляции Пирсона ($r$), относящийся 

к параметрическим показателям корреляции. Если хотя бы один из двух признаков — порядковый 

или его распределение не является нормальным, применяют ранговую корреляцию Спирмена или $\tau$ (тау) Кендалла — 

непараметрические показатели корреляции. 

**Ковариация**

Ковариация, или корреляционный момент — параметрический показатель, позволяющий судить о совместном распределении 

двух признаков. Равна математическому ожиданию произведения отклонений случайных величин:

$$cov_{XY} = M[(X - M(X))(Y - M(Y))] = M(XY) - M(X)M(Y)=\overline{X \cdot Y} - \overline{X} \cdot \overline{Y}$$

```
# Выбран кодовый формат
```



где $M$ — математическое ожидание, $\overline{X} \: и \:\overline{Y}$ — среднее значение выборок.

Размерность ковариации, которая равна произведению размерности случайных величин, имеет их масштаб, 

то есть величина ковариации зависит от единиц измерения независимых величин. В связи с этим ковариацию затруднительно 

применять для корреляционного анализа.

Зная ковариацию и среднее квадратичное отклонение каждого из двух признаков, можно вычислить коэффициент корреляции Пирсона:

$$r_{XY} = \frac{cov_{XY}}{\sigma_{X}\sigma_{Y}}$$

**Корреляционный анализ**

Корреляционный анализ — метод обработки статистических данных, благодаря которому можно определить тесноту связи между

несколькими показателями. Корреляционный анализ имеет тесную связь с регрессионным. Такой анализ принято называть 

корреляционно-регрессионным — используя его, можно определять включение и исключение показателей в уравнение 

множественной регрессии. А применяя коэффициент детерминации — проводить оценку полученного уравнение регрессии на соответствие 

выявленным связям.

**Ограничения корреляционного анализа**

Рассмотрим следующие ограничения корреляционного анализа:

1. Чтобы применять корреляционный анализ, требуется большое количество наблюдений.


2. Совокупность факторных признаков и результирующего признака должна иметь многомерное нормальное распределение.


3. Несмотря на простоту и наглядность метода, он не позволяет точно установить наличие причинно-следственной связи.

Корреляционный анализ используется во многих сферах: экономике, астрофизике, психологии, политологии и социологии.
    
Данный метод обработки информации популярен, так как прост в расчете и интерпретации,

удобен при обработке статистической информации.