In [None]:
import numpy as np
import scipy.stats as st
import matplotlib.pylab as plt

# О корреляции

## Задача

Рассмотрим задачу нахождения корреляции Пирсона для двух случайных величин:

$X_1 \sim \mathcal{N}(0,1)$, $X_2 = X_1 + \alpha\varepsilon, \quad \varepsilon \sim\mathcal{N}(0,1)$

Какова их корреляция?

In [None]:
n = 10

alpha = 0.5
data1 = np.random.randn(n)
data2 = data1 + alpha*np.random.randn(n)
mean1 = mean2 = 0
disp1 = 1 ### Ваш код
disp2 = 1 + alpha**2 ### Ваш код
corr = 1.0/np.sqrt(disp2)
print (corr, disp2)

## Проверка гипотезы о независимости

In [None]:
noises = np.arange(0.5, 10.0, 0.5)

for noise in noises:    
    results_t = []
    results_z = []
    corr = 1.0/np.sqrt(1+noise**2)
    for _ in range(1000):
        data1 = np.random.randn(n)
        data2 = data1 + noise*np.random.randn(n)
        
        pearson = st.pearsonr(data1, data2)[0]
        if pearson == 1.:
            pearson = 0.99999
        
        T = pearson * np.sqrt(n-2)/(np.sqrt(1 - pearson**2)) ### Ваш код
        t_pval = 2 *(1 - st.distributions.t(n-2).cdf(abs(T)))

        Z = np.arctanh(pearson)*np.sqrt(n - 3) ### Ваш код
        z_pval = 2*(1 - st.distributions.norm.cdf(abs(Z)))

        t_res = t_pval>=0.05
        z_res = z_pval>=0.05
        results_t.append(t_res)
        results_z.append(z_res)
        
    print(noise, ':', corr, np.mean(results_t), np.mean(results_z))

## Добавление выброса

In [None]:
n = 100000
data1 = np.random.randn(n)
data2 = data1 + 0.2*np.random.randn(n)
mean1 = mean2 = 0
disp1 = 1
disp2 = 1+1**2
corr = 1.0/np.sqrt(disp2)
corr

In [None]:
data1[0] += 9999

In [None]:
st.pearsonr(data1, data2)[0]

In [None]:
st.spearmanr(data1, data2)[0]

In [None]:
st.kendalltau(data1, data2)[0]

## Корреляция рангов

### Ранги

In [None]:
data = [6, 1, 5, 4, 3, 2]
st.rankdata(data)

In [None]:
np.argsort(np.argsort(data))+1 ### Ваш код

### К задаче

In [None]:
ranks1 = st.rankdata(data1)
ranks2 = st.rankdata(data2)

In [None]:
st.pearsonr(ranks1, ranks2)