# Взаимосвязь величин. Показатели корреляции. Корреляционный анализ
### Задача 1

Даны значения величины заработной платы заемщиков банка `salary` и значения их поведенческого кредитного скоринга `scoring`:

`salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]`

`scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]`

Без использования сторонних библиотек (вроде `numpy`, `pandas` и др.) найдите:
* ковариацию (смещённую и несмещённую) этих двух величин,
* коэффициент корреляции Пирсона.

Можно затем посчитать те же значения с использованием библиотек, чтобы проверить себя.
#### Решение

In [1]:
# salary
X = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]

# scoring
Y = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

n = len(X)

MX = sum(X) / n
MY = sum(Y) / n

cov_biased = sum((X[i] - MX) * (Y[i] - MY) for i in range(n)) / n
cov_unbiased = sum((X[i] - MX) * (Y[i] - MY) for i in range(n)) / (n - 1)

print('Ковариация смещённая: ', cov_biased)
print('Ковариация несмещённая: ', cov_unbiased)

Ковариация смещённая:  9157.84
Ковариация несмещённая:  10175.377777777778


In [2]:
from math import sqrt

std_X = sqrt(sum((X[i] - MX) ** 2 for i in range(n)) / (n - 1))
std_Y = sqrt(sum((Y[i] - MY) ** 2 for i in range(n)) / (n - 1))

corr = cov_unbiased / std_X / std_Y
print('Коэффициент корреляции Пирсона: ', corr)

Коэффициент корреляции Пирсона:  0.8874900920739162


#### Проверка

In [3]:
import numpy as np

# salary
X = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])

# scoring
Y = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

print('Ковариация смещённая: ', np.cov(X, Y, bias=True)[0][1])
print('Ковариация несмещённая: ', np.cov(X, Y)[0][1])

Ковариация смещённая:  9157.84
Ковариация несмещённая:  10175.377777777776


In [4]:
print('Коэффициент корреляции Пирсона: ', np.corrcoef(X, Y)[0][1])

Коэффициент корреляции Пирсона:  0.8874900920739162


### Задача 2

Измерены значения `IQ` выборки студентов, обучающихся в местных технических вузах:

`131, 125, 115, 122, 131, 115, 107, 99, 125, 111`

Известно, что в генеральной совокупности `IQ` распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью `0.95`.
#### Решение
Требуется построить доверительный интервал для математического ожидания нормально распределнной случайной величины $X$ с неизвестным средним квадратическим отклонением.

$$P\left(\overline{X} + t_{\alpha / 2, n - 1} \cdot \dfrac{\sigma_{X}}{\sqrt{n}} \leqslant a \leqslant \overline{X} + t_{1 -\alpha / 2, n - 1} \cdot \dfrac{\sigma_{X}}{\sqrt{n}}\right) = p,$$

где $\alpha = 1 - p = 0.05$, $t_{\alpha / 2, n - 1}$ — квантиль распределения Стьюдента.

In [5]:
from scipy import stats

X = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])
alpha = 0.05

n = len(X)
mean = X.mean()
std = X.std()

t = stats.t.ppf(alpha / 2, df=n - 1)

print(f'Доверительный интервал: ({mean + t * std / np.sqrt(n)}, {mean - t * std / np.sqrt(n)})')

Доверительный интервал: (110.9432125583706, 125.25678744162938)


### Задача 3

Известно, что рост футболистов в сборной распределён нормально с известной дисперсией `25`. На выборке объёма `27` выборочное среднее составило `174.2`. Найдите доверительный интервал для математического ожидания с надёжностью `0.95`.
#### Решение
Требуется построить доверительный интервал для математического ожидания нормально распределнной случайной величины $X$ с известным средним квадратическим отклонением.

$$P\left(\overline{X} + t_{\alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \leqslant a \leqslant \overline{X} + t_{1 -\alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}}\right) = p,$$

где $\alpha = 1 - p = 0.05$, $t_{\alpha / 2}$ — квантиль нормального распределения.

Как известно, $t_{\alpha / 2} \approx -2, t_{1 - \alpha / 2} \approx 2$ при $\alpha = 5\%$. Но посчитаем поточнее на этот раз.

In [6]:
alpha = 0.05
n = 27
mean = 174.2
std = 5  # корень из известной нам дисперсии 25

t = stats.norm.ppf(alpha / 2)

print(f'Доверительный интервал: ({mean + t * std / np.sqrt(n)}, {mean - t * std / np.sqrt(n)})')

Доверительный интервал: (172.3140237765397, 176.08597622346028)
