# **Типы корреляций. Ранговые корреляции**

В прошлом юните вы узнали, что коэффициент корреляции **Пирсона может быть рассчитан для непрерывных нормально распределённых признаков**. В этом юните мы рассмотрим методы расчёта для остальных типов признаков.

**Ранговая корреляция** — это вид корреляции, отражающий отношения переменных, упорядоченных **по возрастанию их значения**.
 
**Ранги** — это **порядковые номера** единиц совокупности в упорядоченном (ранжированном) ряду. Если проранжировать совокупность по двум признакам, связь между которыми изучается, то полное совпадение рангов означает максимально тесную прямую связь, а полная противоположность рангов — максимально тесную обратную связь.

In [4]:
import pandas as pd
from IPython.display import display
import math
import statistics as sts

import matplotlib.pyplot as plt # библиотека визуализации
from scipy import stats # библиотека для расчетов
from sklearn.metrics import matthews_corrcoef 

data = pd.read_csv('data/wine_cleared.csv')

***
#### **КОРРЕЛЯЦИЯ СПИРМЕНА**
Коэффициент корреляции **Спирмена** используется для вычисления взаимосвязей между **категориальными переменными**.

Чтобы рассчитать коэффициент корреляции Спирмена, вам необходимо передать в **df.corr() аргумент method = 'spearman'**.

In [2]:
# Рассчитайте коэффициент корреляции Спирмена для признаков point и price. Ответ округлите до сотых.

data.loc[:,['points', 'price']].corr(method='spearman')

Unnamed: 0,points,price
points,1.0,0.581095
price,0.581095,1.0


Но разве мы не допустили ошибку, рассчитав коэффициент корреляции Спирмена для числового признака, а не категориального? 

Не совсем.

**Иногда мы можем применить ранговую корреляцию и для числовых переменных, которые распределены ненормально или если между ними существует нелинейная связь.**

Лучшим вариантом будет придерживаться правил корреляций каждого из методов: для непрерывных нормально распределённых используем корреляцию Пирсона, для категориальных — ранговую. Однако в спорных случаях мы рассматриваем несколько вариантов корреляций. 

**[Например, в нашем случае один из признаков price распределён ненормально, связь между ними также не является линейной. Корреляция по Пирсону составляет 0.4, что говорит о слабой связи признаков. А корреляция по Спирмену составляет 0.58, что говорит о более сильной связи.]**

Скорее всего, корреляция Спирмена в данном случае будет более верным вариантом, но для точного ответа нам необходимо будет удовлетворить условиям корреляции Спирмена или корреляции Пирсона. Для этого будут необходимы преобразования, которые мы изучим в следующих модулях EDA.

Для ранговой корреляции существует ещё один метод расчёта — **корреляция Кендалла**.

***
#### **КОРРЕЛЯЦИЯ КЕНДАЛЛА**

Так же, как и корреляция Спирмена, корреляция Кендала предусмотрена для нахождения взаимосвязей между категориальными переменными. Для расчёта коэффициента корреляции Кендалла необходимо передать в изученный нами метод **df.corr() аргумент method = 'kendall'**.

In [3]:
# Рассчитайте коэффициент корреляции Спирмена для признаков point и price. Ответ округлите до сотых.

data.loc[:,['points', 'price']].corr(method='kendall')

Unnamed: 0,points,price
points,1.0,0.433498
price,0.433498,1.0


В нашем случае корреляция Кендалла равна 0.43 при коэффициенте корреляции Спирмена 0.58, однако она всё так же выше коэффициента корреляции Пирсона, что говорит о **большей связи, чем в вычислении по Пирсону**.

**[В нашем случае корреляционный анализ показал нам явную связь цены за бутылку вина с её рейтингом. Она не является такой сильной связью, чтобы вызывать мультиколлинеарность. Также мы по-прежнему не можем сказать, что цена и рейтинг связаны напрямую, ведь корреляция не даёт нам причинно-следственных связей. Возможно, есть третья переменная, влияющая на эти оба признака.]**

Даже такой грубый анализ без учёта всех условий для корреляций может быть полезен и позволяет сделать предварительные выводы для дальнейшей работы с признаками.

***
#### **КОРРЕЛЯЦИЯ МЭТЬЮСА**

**Корреляция Мэтьюса** — мера силы связи между **бинарными** переменными.

В df.corr() нет расчёта для корреляции Мэтьюса, но мы можем воспользоваться библиотекой **scikit-learn** и её функцией **matthews_corrcoef()** для расчёта коэффициента корреляции Мэтьюса.

**scikit-learn — это библиотека с реализацией готовых алгоритмов для машинного обучения. Более подробно вы познакомитесь с ней в модулях, посвящённых машинному обучению.**

Для начала установим библиотеку scikit-learn.

*pip install scikit-learn*

Затем импортируем нужную нам функцию для дальнейшей работы.

from sklearn.metrics import matthews_corrcoef

In [5]:
# Пример. Создадим два случайных признака x, y и зададим им бинарные значения.

from sklearn.metrics import matthews_corrcoef

x = [+1, -1, +1, +1] # список значений признака х
y = [+1, +1, +1, -1] # список значений признака y

matthews_corrcoef(x, y) # рассчитаем коэффициент корреляции Мэтьюса

-0.3333333333333333