In [1]:
import numpy as np
import pandas as pd
import random

**Корреляциия Пирсона:**  
Измеряет линейную зависимость между двумя переменными.  
Высокая чувствительность к выбросам.

$$
r = \frac{COV(X,Y)}{\sigma_x \sigma_y}
$$
$$
COV(X,Y) = \frac{1}{n}\sum_{i=1}^n(X_i - \bar{X})(Y_i - \bar{Y})
$$

$$
\sigma_x = \sqrt{\frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2}
$$
$$
\sigma_y = \sqrt{\frac{1}{n} \sum_{i=1}^n (Y_i - \bar{Y})^2}
$$
**Корреляция Спирмена:**  
Измеряет монотонную зависимость между переменными (линейную или нелинейную).  
Низкая чувствительность к выбросам(основана на ранжировании данных).  

$$
p = 1 - \dfrac{6 \sum_{i=1}^n d_i^2}{n (n^2 - 1)}
$$
Где $d$ - разница между рангами $X$ и $Y$ для $i$-го элемента
$$
d_i = R(X_i) - R(Y_i)
$$
а $n$ - количество элементов.

In [2]:
def calc_corr(a, b, cor_type: str = "pearson"):
    if cor_type == "pearson":
        a_mean = a.mean()
        b_mean = b.mean()
        cov = np.mean(np.sum(np.multiply(a - a_mean, b - b_mean)))
        a_std = np.sqrt(np.mean(np.sum(np.power(a - a_mean, 2))))
        b_std = np.sqrt(np.mean(np.sum(np.power(b - b_mean, 2))))
        corr = cov / a_std / b_std
    elif cor_type == "spearman":
        a_ranks = dict()
        b_ranks = dict()
        a_ranks = {value: rank + 1 for rank, value in enumerate(sorted(a))}
        b_ranks = {value: rank + 1 for rank, value in enumerate(sorted(b))}
        d_squared = 0
        for i in range(len(a)):
            d_squared += np.power(a_ranks.get(a[i]) - b_ranks.get(b[i]), 2)
        corr = 1 - ((6 * d_squared) / (len(a) * (np.power(len(a), 2) - 1)))
    return corr

In [3]:
for _ in range(2):
    a = np.random.randint(-100, 100, 10)
    b = a * 2 + random.randint(-100, 100)
    b[3] = random.randint(10, 100)

    df = pd.DataFrame({
    "a": a,
    "b": b
    })
    print("Pearson std")
    display(df.corr())
    print(f"Pearson custom = {calc_corr(a, b):.6f}\n{'-'*25}")
    print("Spearman std")
    display(df.corr("spearman"))
    print(f"Spearman custom = {calc_corr(a, b, 'spearman'):.6f}\n{'-'*25}")

Pearson std


Unnamed: 0,a,b
a,1.0,0.860756
b,0.860756,1.0


Pearson custom = 0.860756
-------------------------
Spearman std


Unnamed: 0,a,b
a,1.0,0.878788
b,0.878788,1.0


Spearman custom = 0.878788
-------------------------
Pearson std


Unnamed: 0,a,b
a,1.0,0.800826
b,0.800826,1.0


Pearson custom = 0.800826
-------------------------
Spearman std


Unnamed: 0,a,b
a,1.0,0.878049
b,0.878049,1.0


Spearman custom = 0.878788
-------------------------
