# Урок 6
## Взаимосвязь величин. Показатели корреляции. Корреляционный анализ. Проверка на нормальность
### Домашнее задание

#### Задача 1
Даны значения величины заработной платы заемщиков банка (`salary`) и значения их поведенческого кредитного скоринга (`scoring`):

`salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]`

Без использования сторонних библиотек (вроде `numpy`, `pandas` и др.) найдите:
1. ковариацию (смещённую и несмещённую) этих двух величин,
2. коэффициент корреляции Пирсона.

Можно затем посчитать те же значения с использованием библиотек, чтобы проверить себя.

#### Решение

In [12]:
import numpy as np
from scipy import stats

In [2]:
salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

Формула ковариации случайных величин $X$ и $Y$:
$$cov(X,Y)=M((X−M(X))(Y−M(Y))).$$

In [3]:
salary_avg = sum(salary) / len(salary)
scoring_avg = sum(scoring) / len(scoring)
cov_biased = sum(map(lambda e: e[0] * e[1], zip([x - salary_avg for x in salary], [x - scoring_avg for x in scoring]))) / (len(salary))
cov = sum(map(lambda e: e[0] * e[1], zip([x - salary_avg for x in salary], [x - scoring_avg for x in scoring]))) / (len(salary) - 1)
print('cov_biased =', cov_biased)
print('cov =', cov)

cov_biased = 9157.84
cov = 10175.377777777778


In [4]:
print('cov_numpy:\n', np.cov(salary, scoring))

cov_numpy:
 [[ 3882.93333333 10175.37777778]
 [10175.37777778 33854.32222222]]


Коэффициент корреляции Пирсона:
$$r_{XY} = \frac{cov(X,Y)}{\sigma_X \cdot \sigma_Y},$$
где $\sigma_X$, $\sigma_Y$ – среднее квадратическое отклонение:
$$\sigma_X = \sqrt(D(X)),$$
где $D(X)$ – дисперсия:
$$D(X) = \frac{1}{m}\sum_{i=1}^m(x_i - \overline{x})^2,$$
где $m$ – количество степеней сводобы.

In [5]:
salary_std_biased = np.sqrt(sum([(x-salary_avg)**2 for x in salary]) / len(salary))
print('salary_std_biased =', salary_std_biased)

scoring_std_biased = np.sqrt(sum([(x-scoring_avg)**2 for x in scoring]) / len(scoring))
print('scoring_std_biased =', scoring_std_biased)

r_from_biased = cov_biased / (salary_std_biased * scoring_std_biased)
print('r_from_biased =', r_from_biased)

salary_std_biased = 59.115480206118605
scoring_std_biased = 174.55340157098058
r_from_biased = 0.8874900920739162


In [6]:
salary_std = np.sqrt(sum([(x-salary_avg)**2 for x in salary]) / (len(salary) - 1))
print('salary_std =', salary_std)

scoring_std = np.sqrt(sum([(x-scoring_avg)**2 for x in scoring]) / (len(scoring) - 1))
print('scoring_std =', scoring_std)

r = cov / (salary_std * scoring_std)
print('r =', r)

salary_std = 62.31318747531162
scoring_std = 183.99544076477068
r = 0.8874900920739162


In [15]:
print('numpy_salary_std_biased =', np.std(salary))
print('numpy_salary_std =', np.std(salary, ddof=1))
print('numpy_scoring_std_biased =', np.std(scoring))
print('numpy_scoring_std =', np.std(scoring, ddof=1))
print('scipy_r =', stats.pearsonr(salary, scoring))

numpy_salary_std_biased = 59.115480206118605
numpy_salary_std = 62.31318747531162
numpy_scoring_std_biased = 174.55340157098058
numpy_scoring_std = 183.99544076477068
scipy_r = (0.8874900920739164, 0.0006107546587257491)


#### Задача 2
Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:

`131, 125, 115, 122, 131, 115, 107, 99, 125, 111`

Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью $0.95$.

#### Решение

In [26]:
samples = [131, 125, 115, 122, 131, 115, 107, 99, 125, 111]
n = len(samples)
p = 0.95

alpha = 1 - p
t = stats.norm.ppf(1 - alpha / 2)
print('t =', t)

samples_avg = np.mean(samples)
print('samples_avg =', samples_avg)

samples_std = np.std(samples, ddof=1)
print('samples_std =', samples_std)

(samples_avg - t*samples_std/np.sqrt(n), samples_avg + t*samples_std/np.sqrt(n))

t = 1.959963984540054
samples_avg = 118.1
samples_std = 10.54566788359614


(111.56384743341334, 124.63615256658665)

#### Задача 3
Известно, что рост футболистов в сборной распределён нормально с известной дисперсией $25$. На выборке объёма $27$ выборочное среднее составило $174.2$. Найдите доверительный интервал для математического ожидания с надёжностью $0.95$.

#### Решение

In [27]:
D = 25
n = 27
avg = 174.2
p = 0.95

alpha = 1 - p
t = stats.norm.ppf(1 - alpha / 2)
print('t =', t)

std = np.sqrt(D)
print('std =', std)

(avg - t * std / np.sqrt(n), avg + t * std / np.sqrt(n))

t = 1.959963984540054
std = 5.0


(172.3140237765397, 176.08597622346028)