# Урок 8. Корреляционный анализ

1. Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks):  
zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110],  
ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832].  
Найдите ковариацию этих двух величин с помощью элементарных действий, а затем с помощью функции cov из numpy  
Полученные значения должны быть равны.  
Найдите коэффициент корреляции Пирсона с помощью ковариации и среднеквадратичных отклонений двух признаков, а затем с использованием функций из библиотек numpy и pandas.

Расчёт ковариации по формуле  
$ cov_{XY}=M[(X-M(X))(Y-M(Y))]=M(XY)-M(X)M(Y)=\bar{X*Y}-\bar{X}*\bar{Y} $

In [2]:
import numpy as np
import pandas as pd
from scipy import stats
from matplotlib import pyplot as plt

In [6]:
zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

XY = 0
X = 0
Y = 0
n = len(zp)
for i in range(0, n):
    XY = XY + zp[i] * ks[i]
    X = X + zp[i]
    Y = Y + ks[i]

X_avg = X/n
Y_avg = Y/n
cov = XY/n - X_avg * Y_avg

print(f"ковариация смещённая: {cov}")

ковариация смещённая: 9157.839999999997


In [7]:
# посчитаем с помощью функции
np.cov(zp, ks, ddof=0)

array([[ 3494.64,  9157.84],
       [ 9157.84, 30468.89]])

Несмещённую оценку прсчитаем по формуле  
$ \sigma_{xy}=\frac{1}{n-1}\displaystyle\sum_{i=1}^{n}(x_i-\bar{x})*(y_i-\bar{y}) $

In [8]:
sum1 = 0
for i in range(0, n):
    sum1 = sum1 + (zp[i] - X_avg) * (ks[i] - Y_avg)

cov1 = 1 / (n - 1) * sum1

print(f"ковариация несмещённая: {cov1}")

ковариация несмещённая: 10175.377777777776


In [11]:
# посчитаем с помощью функции
np.cov(zp, ks, ddof=1)

array([[ 3882.93333333, 10175.37777778],
       [10175.37777778, 33854.32222222]])

Найдём коэффициент корреляции Пирсона

$ r_{XY}=\frac{\sigma_{XY}}{\sigma_X*\sigma_Y}, $  
где $ \sigma_X, \sigma_Y $ - среднее квадратическое отклонение  
Среднее квадратическое отклонение можно найти по формуле расчёта дисперсии  
$ \sigma^2=\frac{1}{m}\displaystyle\sum_{i=1}^m(x_i-\bar{x})^2 $

In [12]:
sum_X = 0
sum_Y = 0
for i in range(0, n):
    sum_X = sum_X + (zp[i] - X_avg)**2
    sum_Y = sum_Y + (ks[i] - Y_avg)**2

Dx = 1/(n)*sum_X
Dy = 1/(n)*sum_Y
scale_X = Dx**0.5
scale_Y = Dy**0.5
print(Dx, scale_X)
print(Dy, scale_Y)

3494.6400000000003 59.115480206118605
30468.89000000001 174.55340157098058


In [16]:
r = cov/(scale_X * scale_Y)
print("r =", r)

r = 0.8874900920739158


In [30]:
# посчитаем с помощью функции
print("Ответ:")
np.corrcoef(zp, ks)

Ответ:


array([[1.        , 0.88749009],
       [0.88749009, 1.        ]])

2. Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:  
131, 125, 115, 122, 131, 115, 107, 99, 125, 111.  
Известно, что в генеральной совокупности IQ распределен нормально.  
Найдите доверительный интервал для математического ожидания с надежностью 0.95.

In [31]:
IQ = [131, 125, 115, 122, 131, 115, 107, 99, 125, 111]

# найдём среднее по выборке и среднее квадратическое отклонение
n = len(IQ)
mean_v = sum(IQ)/n
sum_v = 0
for i in range(0, n):
    sum_v = sum_v + (IQ[i] - mean_v)**2

scale_v = (1/(n - 1) * sum_v)**0.5
print(n)
print(mean_v)
print(scale_v)

10
118.1
10.54566788359614


In [32]:
# так как дисперсия неизвестна используем t-распределение и t-статистику Стьюдента
p = 0.95
alpha = 1 - p
t = stats.t.ppf(1 - alpha / 2, df = n - 1)
t

2.2621571627409915

Доверительный интервал для параметра $ \alpha $  
$ P(\bar{X}-t_{1-\frac{\alpha}{2}}*\frac{\sigma}{\sqrt{n}}\leq\alpha\leq\bar{X}+t_{1-\frac{\alpha}{2}}*\frac{\sigma}{\sqrt{n}})=p $

In [33]:
# доверительный интервал
print("Ответ:")
(mean_v - t * scale_v / np.sqrt(n), mean_v + t * scale_v / np.sqrt(n))

Ответ:


(110.55608365158724, 125.64391634841274)

3. Известно, что рост футболистов в сборной распределен нормально с дисперсией генеральной совокупности, равной 25 кв.см. Объем выборки равен 27, среднее выборочное составляет 174.2. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

Так как распределение нормальное и известна дисперсия воспользуемся формулой  
$ T(X)=\frac{\bar{X}-\alpha}{\frac{\sigma}{\sqrt{n}}} $  
$ P(\bar{X}-t_{1-\frac{\alpha}{2}}*\frac{\sigma}{\sqrt{n}}\leq\alpha\leq\bar{X}+t_{1-\frac{\alpha}{2}}*\frac{\sigma}{\sqrt{n}})=p $

In [34]:
n = 27
D = 25
scale = 5
mean = 174.2
p = 0.95
alpha = 1 - p
t = stats.norm.ppf(1 - alpha/2)
t

1.959963984540054

In [35]:
# доверительный интервал
print("Ответ:")
(mean - t * scale / np.sqrt(n), mean + t * scale / np.sqrt(n))

Ответ:


(172.3140237765397, 176.08597622346028)