In [1]:
import numpy as np
import scipy.stats as st
import matplotlib.pylab as plt

# О корреляции

## Задача

Рассмотрим задачу нахождения корреляции Пирсона для двух случайных величин:

$X_1 \sim \mathcal{N}(0,1)$, $X_2 = X_1 + \alpha\varepsilon, \quad \varepsilon \sim\mathcal{N}(0,1)$

Какова их корреляция?

In [2]:
n = 10

alpha = 0.5
data1 = np.random.randn(n)
data2 = data1 + alpha*np.random.randn(n)
mean1 = mean2 = 0
disp1 = 1### Ваш код
disp2 = 1+alpha**2### Ваш код
corr = 1.0/np.sqrt(disp2)### Ваш код
print(corr, disp2)

0.8944271909999159 1.25


## Проверка гипотезы о независимости

In [4]:
noises = np.arange(0.5, 10.0, 0.5)

for noise in noises:    
    results_t = []
    results_z = []
    corr = 1.0/np.sqrt(1+noise**2)
    for _ in range(1000):
        data1 = np.random.randn(n)
        data2 = data1 + noise*np.random.randn(n)
        
        pearson = st.pearsonr(data1, data2)[0]
        if pearson == 1.:
            pearson = 0.99999
        
        T = pearson*np.sqrt(n - 2) / np.sqrt(1 - pearson**2)### Ваш код
        t_pval = 2 *(1 - st.distributions.t(n-2).cdf(abs(T)))

        Z = np.arctanh(pearson)*np.sqrt(n-3)### Ваш код
        z_pval = 2*(1 - st.distributions.norm.cdf(abs(Z)))

        t_res = t_pval>=0.05
        z_res = z_pval>=0.05
        results_t.append(t_res)
        results_z.append(z_res)
        
    print(noise, ':', corr, np.mean(results_t), np.mean(results_z))

0.5 : 0.8944271909999159 0.021 0.021
1.0 : 0.7071067811865475 0.307 0.302
1.5 : 0.5547001962252291 0.582 0.579
2.0 : 0.4472135954999579 0.751 0.745
2.5 : 0.3713906763541037 0.813 0.81
3.0 : 0.31622776601683794 0.86 0.857
3.5 : 0.27472112789737807 0.893 0.89
4.0 : 0.24253562503633297 0.875 0.87
4.5 : 0.21693045781865616 0.916 0.914
5.0 : 0.19611613513818404 0.915 0.914
5.5 : 0.17888543819998318 0.925 0.921
6.0 : 0.1643989873053573 0.919 0.918
6.5 : 0.1520571842539411 0.926 0.921
7.0 : 0.1414213562373095 0.939 0.937
7.5 : 0.13216372009101796 0.935 0.934
8.0 : 0.12403473458920847 0.917 0.915
8.5 : 0.1168412475673972 0.937 0.936
9.0 : 0.11043152607484653 0.938 0.935
9.5 : 0.10468478451804275 0.951 0.949


## Добавление выброса

In [5]:
n = 100000
data1 = np.random.randn(n)
data2 = data1 + 0.2*np.random.randn(n)
mean1 = mean2 = 0
disp1 = 1
disp2 = 1+0.2**2
corr = 1/np.sqrt(disp2)### Ваш код
corr

0.9805806756909201

In [6]:
data1[0] += 9999

In [7]:
st.pearsonr(data1, data2)[0]

0.033911755254361874

In [8]:
st.spearmanr(data1, data2)[0]

0.9787660428296087

In [9]:
st.kendalltau(data1, data2)[0]

0.8745600612006121

## Корреляция рангов

### Ранги

In [10]:
data = [6, 1, 5, 4, 3, 2]
st.rankdata(data)

array([6., 1., 5., 4., 3., 2.])

In [13]:
np.argsort(np.argsort(data))+1 ### Ваш код это ранг выборки

array([6, 1, 5, 4, 3, 2])

### К задаче

In [14]:
ranks1 = st.rankdata(data1)
ranks2 = st.rankdata(data2)

In [15]:
st.pearsonr(ranks1, ranks2)

(0.9787660428296086, 0.0)

пирсон не робастный, но можно на рангах бахнуть