## Урок 8. Корреляционный анализ

In [1]:
import numpy as np
from scipy.stats import t as t_stat

### Задача 01.

Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks):
- zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110],
- ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832].

Найдите ковариацию этих двух величин с помощью элементарных действий, а затем с помощью функции cov из numpy. Полученные значения должны быть равны.

Найдите коэффициент корреляции Пирсона с помощью ковариации и среднеквадратичных отклонений двух признаков, а затем с использованием функций из библиотек numpy и pandas.

Формула ковариации:

$\displaystyle cov_{xy} = M(xy) - M(x) \cdot M(y)$

In [2]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [3]:
Mxy = (zp * ks).mean()
Mx = zp.mean()
My = ks.mean()

In [4]:
cov = Mxy - Mx * My
cov

9157.839999999997

In [5]:
np.cov(zp, ks, ddof=0)

array([[ 3494.64,  9157.84],
       [ 9157.84, 30468.89]])

Коэффициент корреляции Пирсона определяется по формуле:

$\displaystyle r = \frac{cov_{xy}}{\sigma_x \cdot \sigma_y}$

Значение смещенной ковариации у нас уже есть, найдем сигмы:

In [6]:
sigma_x = np.sqrt(zp.var(ddof=0))
sigma_y = np.sqrt(ks.var(ddof=0))

И соберем это в формулу:

In [7]:
cov / (sigma_x * sigma_y)

0.8874900920739158

In [8]:
np.corrcoef(zp, ks)

array([[1.        , 0.88749009],
       [0.88749009, 1.        ]])

### Задача 2.

Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:

- 131, 125, 115, 122, 131, 115, 107, 99, 125, 111.

Известно, что в генеральной совокупности IQ распределен нормально.

Найдите доверительный интервал для математического ожидания с надежностью 0.95.

Чтобы найти доверительный интервал, в данном случае, воспользуемся t-статистикой, т.к. признак распределен нормально, но количество наблюдений невелико:

$\displaystyle \overline{X} \pm t_{\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt n}$

Так же, по условию задачи, принимаем $\alpha = 0.05$

In [9]:
x = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])
alpha = 0.05

n = x.shape[0]
ddof = 1
sigma = np.sqrt(x.var(ddof=ddof))
t = t_stat.ppf(alpha/2, df=n-ddof)

avg_x = x.mean()

In [10]:
critical_1 = avg_x + t * (sigma / np.sqrt(n))
critical_2 = avg_x - t * (sigma / np.sqrt(n))

critical_1, avg_x, critical_2

(110.55608365158724, 118.1, 125.64391634841274)

### Задача 3.

Известно, что рост футболистов в сборной распределен нормально с дисперсией генеральной совокупности, равной 25 кв.см. Объем выборки равен 27, среднее выборочное составляет 174.2. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

Похожая на предыдущую задача, CI будет построен по той же формуле, но вычислить другие составляющие будет проще

In [11]:
D = 25
alpha = 0.05
avg_x = 174.2
n = 27

In [12]:
sigma = np.sqrt(D)
ddof = 1
t = t_stat.ppf(alpha/2, df=n - ddof)

In [13]:
critical_1 = avg_x + t * (sigma / np.sqrt(n))
critical_2 = avg_x - t * (sigma / np.sqrt(n))

critical_1, avg_x, critical_2

(172.2220658754539, 174.2, 176.17793412454608)