In [2]:
import pandas as pd
import numpy as np
from scipy import stats

Как вы помните, коэффициент корреляции Пирсона измеряет силу линейной связи между двумя переменными, и является достаточной статистикой для описания взаимосвязи между переменными, описываемыми двумерным нормальным распределением.

Из формулы коэффцииента Пирсона следует, что он не является робастным - то есть чувствителен к выбросам.

### Коэффициент ранговой корреляции Спирмена

Неформально, можно его описать как коэффициент корреляции Пирсона между рангами вместо абсолютных значений. **Он позволяет описать степень монотонности отношения между переменными.** Меньший ранг соответствует меньшему значению. Если нет повторяющихся рангов, то формула имеет вид:
$$ r_s = 1 - \frac{6\sum_i d_i^2}{n(n^2-1)}.$$

Сам расчет уже сделан в scipy.stats:

In [4]:
x2n = np.random.randn(100, 2)
y2n = np.random.randn(100, 2)
stats.spearmanr(x2n)

SpearmanrResult(correlation=-0.073099309930993103, pvalue=0.46982091571549556)

Доверять оценкам p-values стоит при наличии наблюдений в выборке от 500 (установлено эмпирически).

### Тау Кенделла

Данный коэффициент используется для нахождения ассоциации между переменными, измеренным на ординальной шкале. Проще всего описать его следующим образом:
$$\tau = \frac{n_{concordant}-n_{discordant}}{n(n-1)/2} .$$

Пара наблюдений $(x_i, y_i)$ и $(x_j, y_j)$, где $i \ne j$, является конкордантной, если  ранги обоих элементов одного наблюдения больше или меньше соответствующих рангов элементов второго наблюдения, т.е: 

$$ sign(Rank(x_i)-Rank(x_j)) = sign(Rank(y_i)-Rank(y_j)) $$

In [5]:
x1 = [12, 2, 1, 12, 2]
x2 = [1, 4, 7, 1, 0]
tau, p_value = stats.kendalltau(x1, x2) 

In [6]:
tau

-0.47140452079103173

In [7]:
p_value

0.24821309157521476

p-values аппроксимируются с помощью нормального распределения.