### Współczynnik korelacji Spearmana

In [205]:
import pandas as pd
import numpy as np
from scipy.stats import *

In [206]:
n = 10
X = np.random.randint(0, 100, n)
Y = np.random.randint(50, 100, n)
df = pd.DataFrame({'X':X, 'Y':Y})
df

Unnamed: 0,X,Y
0,49,78
1,21,93
2,37,65
3,63,73
4,78,68
5,11,96
6,1,93
7,24,60
8,13,52
9,81,98


#### 1.Posortować rosnąco względem pierwszej zmiennej $X \in R^n$, $X_{i} \le X_{i+1} \le X_{n}$ i określić rangi $x_i$.

https://en.wikipedia.org/wiki/Ranking
'Fractional ranking.'

In [207]:
# Przykład obliczania zaszeregowania cząstkowego używanego dla zbiorów z elementami powtarzającymi się.
zbior = np.array(sorted([1,3,2,2,3]))
rangi = np.array([1,2,3,4,5]).astype(np.float)

uniq, counts = np.unique(zbior, return_counts=True)
for k,v in zip(uniq, counts):
    ranga = np.sum(rangi[zbior == k])/v
    rangi[zbior == k] = ranga
zaszeregowanie_czastkowe = rangi

np.testing.assert_array_equal(zaszeregowanie_czastkowe, rankdata(zbior))

In [208]:
df = df.sort_values('X')
df['x'] = rankdata(df.X)
df

Unnamed: 0,X,Y,x
6,1,93,1.0
5,11,96,2.0
8,13,52,3.0
1,21,93,4.0
7,24,60,5.0
2,37,65,6.0
0,49,78,7.0
3,63,73,8.0
4,78,68,9.0
9,81,98,10.0


#### 2. Posortować rosnąco względem drugiej zmiennej $Y \in R^n$, $Y_{i} \le Y_{i+1} \le Y_{n}$ i określić rangi $y_i$.

In [209]:
df = df.sort_values('Y')
df['y'] = rankdata(df.Y)
df

Unnamed: 0,X,Y,x,y
8,13,52,3.0,1.0
7,24,60,5.0,2.0
2,37,65,6.0,3.0
4,78,68,9.0,4.0
3,63,73,8.0,5.0
0,49,78,7.0,6.0
6,1,93,1.0,7.5
1,21,93,4.0,7.5
5,11,96,2.0,9.0
9,81,98,10.0,10.0


#### 3. Obliczyć odległości rang i podnieść go do drugiej potęgi.
$$d_{x_i, y_i} = x_i - y_i$$

$$d_{x_i, y_i}^2 = (x_i - y_i)^2 $$

In [210]:
df['d'] =  df.x - df.y
df['d^2'] =  (df.x - df.y)**2
df

Unnamed: 0,X,Y,x,y,d,d^2
8,13,52,3.0,1.0,2.0,4.0
7,24,60,5.0,2.0,3.0,9.0
2,37,65,6.0,3.0,3.0,9.0
4,78,68,9.0,4.0,5.0,25.0
3,63,73,8.0,5.0,3.0,9.0
0,49,78,7.0,6.0,1.0,1.0
6,1,93,1.0,7.5,-6.5,42.25
1,21,93,4.0,7.5,-3.5,12.25
5,11,96,2.0,9.0,-7.0,49.0
9,81,98,10.0,10.0,0.0,0.0


#### 4. Policzyć współczynnik korelacji Spearmana: 

**Wzór uproszczony dla niepowtarzających się rang:**

$$\large \rho_{d_{x_i, y_i}^2} = 1 - \frac{6 \sum_i^n{d_{x_i, y_i}^2}}{n(n^2 - 1)} $$

**Wzór ogólny (Współczynnik korelacji Pearsona dla rang $x_i, y_i$):**
 $$\rho_{x_i, y_i} = \frac{n\sum_{i=1}^n x_i y_i - \sum_{i=1}^n x_i \sum_{i=1}^n y_i}{\sqrt{n\sum_{i=1}^n x_i^2 - (\sum_{i=1}^n x_i)^2} \sqrt{n\sum_{i=1}^n y_i^2 - (\sum_{i=1}^n y_i)^2}} $$

In [211]:
rho = 1 - 6*df['d^2'].sum()/(df['X'].shape[0]*(df['X'].shape[0]**2 - 1))
rho

0.027272727272727226

In [212]:
x, y = df.x, df.y
n = np.shape(x)[0]
rho = ((n*np.sum(x*y) - np.sum(x)*np.sum(y))/ \
 (np.sqrt(n*np.sum(x**2)-np.sum(x)**2)*np.sqrt(n*np.sum(y**2)-np.sum(y)**2)))

In [217]:
assert(spearmanr(df.X, df.Y)[0] == rho)
assert(rho == pearsonr(df.x, df.y)[0])