### ИТОГОВЫЙ ПРОЕКТ. РАНГОВАЯ КОРРЕЛЯЦИЯ

Корреляция является мерой связи между двумя переменными.

Легко рассчитать и интерпретировать, когда обе переменные имеют хорошо понятное распределение Гаусса. Когда мы не знаем распределение переменных, мы должны использовать непараметрические методы ранговой корреляции.

Ранговая корреляция относится к методам, которые определяют количество между переменными, используя порядковые отношения между значениями, а не конкретные значения. Порядковые данные - это данные, которые имеют значения меток и имеют отношение порядка или ранга; например: 'низкий‘,‘Средняя', а также 'высоко«.

Ранговая корреляция может быть рассчитана для вещественных переменных. Это делается путем предварительного преобразования значений для каждой переменной в данные ранга. Здесь значения упорядочены и им присвоено целочисленное значение ранга. Затем можно рассчитать ранговые коэффициенты корреляции для количественной оценки связи между двумя ранжированными переменными.

Поскольку распределение значений не предполагается, методы ранговой корреляции называются корреляцией без распределения или непараметрической корреляцией. Интересно, что меры ранговой корреляции часто используются в качестве основы для других тестов статистической гипотезы, таких как определение того, были ли две выборки, вероятно, взяты из одинаковых (или разных) распределений населения.

Методы ранговой корреляции часто называют в честь исследователя или исследователей, которые разработали метод. Вот четыре примера методов ранговой корреляции:
<br>Ранговая корреляция Спирмена.
<br>Ранговая корреляция Кендалла.
<br>Ранговая корреляция Гудмана и Крускала.
<br>Ранговая корреляция Сомерса.

### Ранговая корреляция Спирмена
Ранг корреляции Спирмена назван в честь Чарльза Спирмена.

Это также можно назвать коэффициентом корреляции Спирмена и обозначается строчной греческой буквой $\rho$. Как таковой, это может упоминаться как $ро$ Спирмена.

Этот статистический метод количественно определяет степень, в которой ранжированные переменные связаны монотонной функцией, что означает увеличение или уменьшение отношения. В качестве теста статистической гипотезы метод предполагает, что выборки некоррелированы (не отбрасывают H0).

Ранговая корреляция Спирмена - это статистическая процедура, предназначенная для измерения взаимосвязи между двумя переменными по порядковой шкале измерения.

Интуиция для ранговой корреляции Спирмена состоит в том, что он вычисляет корреляцию Пирсона (например, параметрическую меру корреляции), используя ранговые значения вместо реальных значений. Где корреляция Пирсона - это расчет ковариации (или ожидаемой разницы наблюдений от среднего) между двумя переменными, нормализованными по дисперсии или разбросу обеих переменных.

$r_s=1 - \frac{6\Sigma_{i} d^2_i}{N(N^2 - 1)}$, где $d_{i}=x_i-y_i$, а $N$ - объем выборки.

Ранговая корреляция Спирмена может быть рассчитана в Python с помощью $spearmanr()$ функция $scipy$,

Функция принимает две действительные выборки в качестве аргументов и возвращает как коэффициент корреляции в диапазоне от -1 до 1, так и значение $ \rho$ для интерпретации значимости коэффициента.

In [1]:
import numpy as np
from scipy.stats import spearmanr
np.random.seed(1) # seed random number generator
data1 = np.random.rand(1000) * 20
data2 = data1 + (np.random.rand(1000) * 10)
coef, p = spearmanr(data1, data2)
print('Коэффициент корреляции Спирмена: %.3f' % coef)
alpha = 0.05
if p > alpha:
	print('Выборки не коррелируются (принимаем гипотезу H0) p=%.3f' % p)
else:
	print('Выборки коррелируются (отклоняем гипотезу H0) p=%.3f' % p)

Коэффициент корреляции Спирмена: 0.900
Выборки коррелируются (отклоняем гипотезу H0) p=0.000


При выполнении примера вычисляется коэффициент корреляции Спирмена между двумя переменными в наборе тестовых данных.

Статистический тест сообщает о сильной положительной корреляции со значением 0,9. Значение p близко к нулю, что означает, что вероятность наблюдения данных при условии, что образцы не коррелированы, очень маловероятна (например, 95% достоверность), и что мы можем отвергнуть нулевую гипотезу, что образцы не коррелированы.

### Пример 1. 
Тринадцать цветных полос расположены в порядке убывания окраски от темной к светлой и каждой полосе присвоен ранг – порядковый номер A. При проверке способности различать оттенки цветов испытуемый расположил полосы в следующем порядке B:
<br>A 1 2 3 4 5 6 7 8 9 10 11 12 13
<br>B 6 3 4 2 1 10 7 8 9 5 11 13 12
<br>Найти выборочный коэффициент ранговой корреляции Спирмена между «правильными» рангами оттенков A и рангами B, которые им присвоил испытуемый.

Объем выборки $n=13$
<br>Выборочный коэффициент корреляции Спирмена находим по формуле:
$$R_S=1-\frac{6\sum\limits_{i=1}^{n}d_{i}^2}{n^3-n},$$
где $d_{i}=x_i-y_i$

$$R_S=1-\frac{6 \cdot ((1-6)^2+(2-3)^2+(3-4)^2+(4-2)^2+(5-1)^2+(6-10)^2+(7-7)^2+(8-8)^2+(9-9)^2+(10-5)^2+(11-11)^2+(12-13)^2+(13-12)^2}{13^3-13}=1-\frac{6 \cdot ((-5)^2+(-1)^2+(-1)^2+(2)^2+(4)^2+(-4)^2+(0)^2+(0)^2+(0)^2+(5)^2+(0)^2+(-1)^2+(1)^2}{2197-13}=1-\frac{6 \cdot (25+1+1+4+16+16+25+1+1)}{2197-13}=1-\frac{6 \cdot 90}{2184}=1-\frac{540}{2184}=\frac{2184-540}{2184}=\frac{1644}{2184}=0.7527$$

Связь между признаком Y и фактором X сильная и прямая.
<br>Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента ранговой корреляции Спирмена при конкурирующей гипотезе Hi. p ≠ 0, надо вычислить критическую точку:
$$T_{кр}=t(\alpha, k) \sqrt{\frac{1-p^2}{n-2}}$$

где n - объем выборки; $ \rho$ - выборочный коэффициент ранговой корреляции Спирмена: $t(\alpha, к)$ - критическая точка двусторонней критической области, которую находят по таблице критических точек распределения Стьюдента, по уровню значимости α и числу степеней свободы $k = n-2$.
Если $|\rho| < Т_{кр}$ - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками не значима. Если $|\rho| > T_{кр}$ - нулевую гипотезу отвергают. Между качественными признаками существует значимая ранговая корреляционная связь.

По таблице Стьюдента находим $t(α/2, k) = (0.1/2;11) = \frac{1.813+1.782}{2}=1.7975$

$$T_{кр}=1.7975 \sqrt{\frac{1-0.7527^2}{13-2}}=1.7975 \sqrt{\frac{1-0.7527^2}{13-2}}=1.7975 \cdot 0.1985=0.356811$$

Поскольку $T_{кр} < \rho$, то отклоняем гипотезу о равенстве 0 коэффициента ранговой корреляции Спирмена. Другими словами, коэффициент ранговой корреляции статистически - значим и ранговая корреляционная связь между оценками по двум тестам значимая.

In [2]:
np.sqrt((1-0.7527**2)/11)*1.7975

0.35681114243544193

In [3]:
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13])
y = np.array([6, 3, 4, 2, 1, 10, 7, 8, 9, 5, 11, 13, 12])
coef, p = spearmanr(x, y)
print('Коэффициент корреляции Спирмена: %.3f' % coef)
alpha = 0.05
if p > alpha:
	print('Выборки не коррелируются (принимаем гипотезу H0) p=%.3f' % p)
else:
	print('Выборки коррелируются (отклоняем гипотезу H0) p=%.3f' % p)

Коэффициент корреляции Спирмена: 0.753
Выборки коррелируются (отклоняем гипотезу H0) p=0.003


### Ранговая корреляция Кендалла
Ранг корреляции Кендалла назван в честь Мориса Кендалла.

Его также называют коэффициентом корреляции Кендалла, и этот коэффициент часто обозначается строчной греческой буквой тау (t) $\tau$. В свою очередь, тест можно назвать тау Кендалла.

Интуиция для теста состоит в том, что он вычисляет нормированную оценку для числа совпадающих или согласованных ранжирований между двумя выборками. Таким образом, этот тест также называется тестом соответствия Кендалла.

Ранговый коэффициент корреляции Кендалла может быть рассчитан в Python с использованием функция кендаллтау () SciPy, Тест берет две выборки данных в качестве аргументов и возвращает коэффициент корреляции и значение p. В качестве теста статистической гипотезы метод предполагает (H0), что нет никакой связи между двумя выборками.

$\tau=\frac{P(p) - P(q)}{N\frac{(N-1)}{2}}$
, где $P(p)$ — число совпадений, $P(q)$ — число инверсий, $N$ — объем выборки

В упрощенном виде формулу коэффициента корреляции Кендалла можно записать как:

$\tau=\frac{4P}{N(N-1)} - 1$

In [4]:
from scipy.stats import kendalltau
coef, p = kendalltau(data1, data2)
print('Коэффициент корреляции Кендалла: %.3f' % coef)
alpha = 0.05
if p > alpha:
	print('Выборки не коррелируются (принимаем гипотезу H0) p=%.3f' % p)
else:
	print('Выборки коррелируются (отклоняем гипотезу H0) p=%.3f' % p)

Коэффициент корреляции Кендалла: 0.709
Выборки коррелируются (отклоняем гипотезу H0) p=0.000


При выполнении примера вычисляется коэффициент корреляции Кендалла как 0,7, что сильно коррелирует.

Значение p близко к нулю (и печатается как ноль), как и в тесте Спирмена, что означает, что мы можем уверенно отвергнуть нулевую гипотезу о том, что выборки некоррелированы.

### Пример 2. 
Два контролера расположили 10 деталей в порядке ухудшения их качества. В итоге были получены две последовательности рангов:
<br>X 1 2 3 4 5 6 7 8 9 10
<br>Y 1 2 4 3 6 5 7 10 9 8
<br>Используя коэффициент ранговой корреляции Кендалла, определить, согласуются ли оценки контролеров.


$$\tau=\frac{4\sum\limits_{i=1}^{n}R_i}{N(N-1)} - 1$$


In [5]:
i = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
x1 = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
y1 = np.array([1, 2, 4, 3, 6, 5, 7, 10, 9, 8])
Ri = np.array(['R1', 'R2', 'R3', 'R4', 'R5', 'R6', 'R7', 'R8', 'R9', 'R10'])
R1=np.vstack((i, x1, y1, Ri))

In [6]:
from IPython.display import HTML, display

def dataToTable(data, columns = None):
    if len(data) == 0 :  
        display(HTML('<b>Нет данных</b>'))
        return
    
    hdr = ''
    if columns != None:
        for col in columns: # Формируем заголовок таблицы
            hdr = hdr + '<th>' + col + '</th>'
            
        hdr = '<tr>' + hdr + '</tr>'

    dt = ''
    for row in data: # Проходим циклом по всем строкам
        dt = dt + '<tr>'
        for cell in row: # И формируем тело таблицы
            dt = dt + '<td>' + str(cell) + '</td>'
        dt = dt + '</tr>'
            
    display(HTML('<table>' + hdr + dt + '</table>')) # Выводим таблицу на экран

dataToTable(R1.T, columns=["i", "Xi","Yi", "Ri"])

i,Xi,Yi,Ri
1,1,1,R1
2,2,2,R2
3,3,4,R3
4,4,3,R4
5,5,6,R5
6,6,5,R6
7,7,7,R7
8,8,10,R8
9,9,9,R9
10,10,8,R10


$R_1 = 9$ , так как в столбце $y_i$ ниже $y_1 =1$ есть ровно 9 значений, больших 1. 
<br>$R_2 = 8$, так как в столбце $y_i$ ниже $y_2 =2$ есть ровно 8 значений, больших 2.
<br>$R_3 = 6$, так как в столбце $y_i$ ниже $y_3 =4$ есть ровно 6 значений, больших 4.
<br>$R_4 = 6$, так как в столбце $y_i$ ниже $y_4 =3$ есть ровно 6 значений, больших 3.
<br>$R_5 = 4$, так как в столбце $y_i$ ниже $y_5 =6$ есть ровно 4 значений, больших 6.
<br>$R_6 = 4$, так как в столбце $y_i$ ниже $y_6 =5$ есть ровно 4 значений, больших 5.
<br>$R_7 = 3$, так как в столбце $y_i$ ниже $y_7 =7$ есть ровно 3 значений, больших 5.
<br>$R_8 = 0$, так как в столбце $y_i$ ниже $y_8 =10$ есть ровно 0 значений, больших 10.
<br>$R_9 = 0$, так как в столбце $y_i$ ниже $y_9 =9$ есть ровно 0 значений, больших 9.
<br>$R_{10} = 0$, так как в столбце $y_i$ ниже $y_{10} =8$ есть ровно 0 значений, больших 8.

In [7]:
R = np.array([9, 8, 6, 6, 4, 4, 3, 0, 0, 0])
dataToTable(np.vstack((i, x1, y1, R)).T, columns=["i", "Xi","Yi", "Ri"])

i,Xi,Yi,Ri
1,1,1,9
2,2,2,8
3,3,4,6
4,4,3,6
5,5,6,4
6,6,5,4
7,7,7,3
8,8,10,0
9,9,9,0
10,10,8,0


$$\sum\limits_{i=1}^{10}R_i=9+8+6+6+4+4+3+0+0+0=40$$

$$\tau=\frac{4 \cdot 40}{10(10-1)} - 1=\frac{160}{90} - 1=\frac{160-90}{90}=\frac{70}{90}=\frac{7}{9}=0.778$$

In [8]:
x1 = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
y1 = np.array([1, 2, 4, 3, 6, 5, 7, 10, 9, 8])
coef, p = kendalltau(x1, y1)
print('Коэффициент корреляции Кендалла: %.3f' % coef)
alpha = 0.05
if p > alpha:
	print('Выборки не коррелируются (принимаем гипотезу H0) p=%.3f' % p)
else:
	print('Выборки коррелируются (отклоняем гипотезу H0) p=%.3f' % p)

Коэффициент корреляции Кендалла: 0.778
Выборки коррелируются (отклоняем гипотезу H0) p=0.001


Коэффициент корреляции Кендалла равен $\tau=0.778$, что сильно коррелирует.

Значение p близко к нулю, как и в тесте Спирмена, что означает, что мы можем уверенно отвергнуть нулевую гипотезу о том, что выборки некоррелированы.