# Корреляция

***Корреляция*** *— статистическая связь двух и более переменных. При изменении значения одной из переменных происходит закономерное изменение другой или других величин.*

*Например, при взрослении у человека меняются его показатели: рост становится больше, риск сердечно-сосудистых заболеваний — выше.*

*Мерой связи величин, мерой корреляции является ***коэффициент корреляции.*** Он может принимать значение от -1 до +1.*

***Отрицательная корреляция,*** *коэффициент корреляции < 0 говорит об обратной связи между переменными. При обратной связи увеличение одной из величин ведёт к закономерному уменьшению другой (других) величин. *

***Например, чем больше сумма активного долга, тем меньше шанс в одобрении кредита.***

***Положительная корреляция,*** *коэффициент корреляции > 0 говорит о прямой связи между переменными. При прямой связи увеличение одной из величин ведёт к закономерному увеличению другой (других) величин.*

***Например, с увеличением возраста размер ноги человека увеличивается, и его рост увеличивается тоже.***

***Коэффициент корреляции = 0*** *говорит о том, что переменные независимы друг от друга, по крайней мере линейно, но это вовсе не значит, что между ними нет какой-то более сложной взаимосвязи. Это достаточно редкое явление, которое может встретиться на конкретном наборе данных.*

*Понимание корреляции приводит нас к понятию мультиколлинеарности — такой сильной зависимости переменных друг от друга, что она затрудняет анализ и оценку будущей модели машинного обучения.*

*Понять, почему это плохо для модели машинного обучения, вы сможете, когда приступите к обучению моделей. Но уже на этапе разведывательного анализа данных вы сможете выявить такие зависимости.*

*Как понять, существует ли сильная взаимозавимость признаков? Для этого существует примерная шкала степеней силы связи и коэффициента корреляции между признаками.*

*В таблице отражены основные силы связи между признаками.*

![image.png](attachment:image.png)

*Принято считать, что при коэффициенте корреляции +/-0,7 связь между признаками сильная и приводит к мультиколлинеарности.*

***Например, сложилась ситуация, когда в датасете были обнаружены признаки с очень сильной корреляцией. Мы знаем, что мультиколлинеарность вредит такой модели, поэтому на этапе проектирования признаков можем объединить эту пару признаков в один или удалить из этой пары один — тот, что менее важен. Важность признаков мы оцениваем позже, на этапе отбора признаков.***

*Так что для этапа корреляционного анализа достаточно делать и запоминать выводы о взаимосвязях признаков, чтобы на дальнейшем этапе разведывательного анализа данных правильно их обработать. Эти этапы мы изучим позже в курсе, в юнитах про разведывательный анализ данных.*

In [1]:
import pandas as pd
import statistics
wine_data = pd.read_csv('data/wine_cleared.csv', sep=',')
display(wine_data.columns)

Index(['Unnamed: 0', 'country', 'description', 'designation', 'points',
       'price', 'province', 'region_1', 'taster_name', 'taster_twitter_handle',
       'title', 'variety', 'winery'],
      dtype='object')

### Задание 3.1

*Выберите верные утверждения о корреляции:*

![image.png](attachment:image.png)

### Задание 3.2

*Соотнесите коэффициент корреляции с силой связи между переменными.*

![image.png](attachment:image.png)

### Задание 3.3

*Для расчёта коэффициента корреляции применим функцию df.corr() библиотеки pandas.*

*Вычислите коэффициент корреляции между переменными в датасете винных обзоров. В ответ запишите величину коэффициента корреляции между ценой за бутылку и баллами за вино. Округлите ответ до шести знаков после запятой.*

In [22]:
mask = wine_data[['price','points']]
display(mask.corr())

Unnamed: 0,price,points
price,1.0,0.402137
points,0.402137,1.0


*Результатом функции df.corr() является матрица корреляции.*

***Матрица корреляции*** *— таблица, заголовками и строками которой являются названия признаков в датасете. На пересечении строк и столбцов находится значение коэффициента корреляции этих двух признаков.*

*Данная матрица имеет значение 1 по главной диагонали, так как единица означает корреляцию признака с самим собой. Матрица является симметричной.*

![image.png](attachment:image.png)

*На рисунке вы можете увидеть визуализированную матрицу к одному из соревнований на kaggle. Наибольшая связь наблюдается в паре признаков age и age_bucket — 0.98, что по шкале корреляции является очень сильной связью и приводит к мультиколлинеарности признаков. Скорее всего, один из признаков будет исключён из датасета.*

*Подобную матрицу мы научимся строить в одном из следующих юнитов, посвящённых визуализации корреляций.*

*В нашей матрице датасета винных обзоров отражено всего два признака — points, price.  На пересечении признаков мы видим значение коэффициента корреляции между признаками points и price.*

![image.png](attachment:image.png)

*Причина в том, что рассчитать коэффициент корреляции мы можем только в том случае, когда признак имеет численное выражение. Как мы выяснили ранее, остальные признаки — в строковом формате, и расчёт коэффициента корреляции невозможен. Для этого необходимо провести кодирование признака, которое мы будем изучать далее.*

### Задание 3.4

*Оцените характер связи на основании рассчитанного коэффициента корреляции между ценой и баллом вина при расчёте методом df.corr():*

![image.png](attachment:image.png)

### Задание 3.5

*Оцените силу корреляции на основании рассчитанного коэффициента корреляции между ценой и баллом вина при расчёте методом df.corr():*

![image.png](attachment:image.png)

*Поскольку наша задача — предсказание рейтинга (баллов) за вино на основании признаков в датасете, можем ли мы с помощью корреляции понять, влияет ли, например, цена за бутылку в определении рейтинга вина?*

**Нет!**

***Корреляция и причинно-следственная связь — это понятия, которые чаще всего ошибочно приравниваются друг к другу. Понимание корреляции важно для разведывательного анализа и помогает делать правильные выводы.***

## Ложная корреляция

*Рассмотрим, почему корреляция не подразумевает причинно-следственных связей, на популярном примере.*

***Продажи мороженого коррелируют с убийствами!***

***По мере роста или падения продаж замороженного десерта соответственно растёт или уменьшается количество убийств. Является ли потребление замороженного десерта причиной смерти людей?***

*Нет. Эти две вещи взаимосвязаны, но это не значит, что одна вызывает другую.*

*Этот случай можно назвать совпадением, и чаще всего корреляция наблюдается именно в таких ситуациях. А иногда нам просто не хватает данных, чтобы уловить причину связи между переменными.*

*В некоторых случаях участвуют скрытые факторы. Например, в примере с мороженым улучшение погоды вызывает рост продаж десерта, а большое количество людей на улицах создаёт благоприятные условия для убийц.*

*Нет причинно-следственной связи между убийствами и продажей мороженого, а наличие третьего фактора — хорошей погоды — объясняет эти связи. Этот случай называется* ***ложной корреляцией.***

*Существует огромное количество подобных исследований с удивительными связями. Прочитайте, например, [про связь пиратов с глобальным потеплением](https://ru.wikipedia.org/wiki/%D0%9F%D0%B0%D1%81%D1%82%D0%B0%D1%84%D0%B0%D1%80%D0%B8%D0%B0%D0%BD%D1%81%D1%82%D0%B2%D0%BE#%D0%9F%D0%B8%D1%80%D0%B0%D1%82%D1%8B_%D0%B8_%D0%B3%D0%BB%D0%BE%D0%B1%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B5_%D0%BF%D0%BE%D1%82%D0%B5%D0%BF%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5). Больше исследований вы найдёте [здесь](https://www.tylervigen.com/spurious-correlations).*

*В этом юните мы узнали, что такое корреляция, коэффициент корреляции и сила связи переменных, а также ложная корреляция. В следующих юнитах вы узнаете о типах корреляции и их разнице.*