# Ранговые корреляции

**`Ранговая корреляция`** — это вид корреляции, отражающий отношения переменных, упорядоченных по возрастанию их значения. 

**`Ранги`** — это порядковые номера единиц совокупности в упорядоченном (ранжированном) ряду. Если проранжировать совокупность по двум признакам, связь между которыми изучается, то полное совпадение рангов означает максимально тесную **прямую связь**, а полная противоположность рангов — максимально тесную **обратную связь**.

### КОРРЕЛЯЦИЯ СПИРМЕНА

![image.png](attachment:image.png)

Чтобы рассчитать коэффициент корреляции Спирмена, вам необходимо передать в **df.corr()** аргумент **method = 'spearman'** .

In [1]:
import pandas as pd
data = pd.read_csv('data\wine_cleared.csv')
df = data.copy()

In [2]:
round(df['price'].corr(df['points'], method='spearman'),2)

0.58

Лучшим вариантом будет придерживаться правил корреляций каждого из методов: для непрерывных нормально распределённых используем корреляцию Пирсона, для категориальных — ранговую. Однако в спорных случаях мы рассматриваем несколько вариантов корреляций. 

![image.png](attachment:image.png)

### КОРРЕЛЯЦИЯ КЕНДАЛЛА

Так же, как и корреляция Спирмена, корреляция Кендала предусмотрена для нахождения взаимосвязей между категориальными переменными. Для расчёта коэффициента корреляции Кендалла необходимо передать в изученный нами метод **df.corr()** аргумент **method = 'kendall'**. 

In [3]:
round(df['price'].corr(df['points'], method='kendall'),2)

0.43

Корреляция Кендалла более устойчива к ошибкам и выбросам в данных. Это значит, что её можно применить до очистки данных, чтобы выявить взаимосвязи заранее. Применение в этом случае корреляции Спирмена, как и корреляции Пирсона, не вызовет ошибки, но, скорее всего, некорректность расчёта приведёт к неверным выводам.

![image.png](attachment:image.png)

### КОРРЕЛЯЦИЯ МЭТЬЮСА

Бинарные признаки являются подгруппой категориальных. Мы по-прежнему можем использовать методы ранговых корреляций для расчёта связи между переменными. 

![image.png](attachment:image.png)

В df.corr() нет расчёта для корреляции Мэтьюса, но мы можем воспользоваться библиотекой scikit-learn и её функцией matthews_corrcoef() для расчёта коэффициента корреляции Мэтьюса.

    scikit-learn — это библиотека с реализацией готовых алгоритмов для машинного обучения. Более подробно вы познакомитесь с ней в модулях, посвящённых машинному обучению.

Для начала установим библиотеку scikit-learn.

    pip install scikit-learn
Затем импортируем нужную нам функцию для дальнейшей работы.

    from sklearn.metrics import matthews_corrcoef
В нашем датасете винных обзоров нет бинарных переменных, но мы можем воспользоваться учебным примером.

In [4]:
from sklearn.metrics import matthews_corrcoef

In [6]:
x = [+1, -1, +1, +1] # список значений признака х
y = [+1, +1, +1, -1] # список значений признака y

corr = matthews_corrcoef(x, y) # рассчитаем коэффициент корреляции Мэтьюса
round(corr,2)

-0.33