# Урок 6. Практическое задание
## Взаимосвязь величин. Параметрические и непараметрические показатели корреляции. Корреляционный анализ

## Задание 1
### Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks):
    zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110],
    ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832].
### Найдите ковариацию этих двух величин с помощью элементарных действий, а затем с помощью функции cov из numpy. Полученные значения должны быть равны.
### Найдите коэффициент корреляции Пирсона с помощью ковариации и среднеквадратичных отклонений двух признаков, а затем с использованием функций из библиотек numpy и pandas.

#### Ковариация
Ковариация равна математическому ожиданию произведения отклонений случайных величин:
$$cov_{XY} = M[(X - M(X))(Y - M(Y))] = M(XY) - M(X)M(Y)=\overline{X \cdot Y} - \overline{X} \cdot \overline{Y}$$
где $M$ — математическое ожидание, $\overline{X} \: и \:\overline{Y}$ — среднее значение выборок.

In [19]:
import pandas as pd
import numpy as np
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [20]:
m_zp = zp.mean()
m_ks = ks.mean()
m_zp_ks = (zp * ks).mean()

cov_zp_ks = m_zp_ks - m_zp * m_ks
print(f'Ковариация равна: {cov_zp_ks:.4f}')

Ковариация равна: 9157.8400


In [21]:
np.cov(zp, ks, ddof=1)

array([[ 3882.93333333, 10175.37777778],
       [10175.37777778, 33854.32222222]])

In [22]:
np.cov(zp, ks, ddof=0)

array([[ 3494.64,  9157.84],
       [ 9157.84, 30468.89]])

#### Коэффициент корреляции Пирсона
Зная ковариацию и среднее квадратичное отклонение каждого из двух признаков, можно вычислить коэффициент корреляции Пирсона:
$$r_{XY} = \frac{cov_{XY}}{\sigma_{X}\sigma_{Y}}$$

In [28]:
s_zp = zp.std(ddof=0)
s_ks = ks.std(ddof=0)
r_zp_ks = cov_zp_ks / (s_zp * s_ks)
print(f'Коэффициент корреляции Пирсона равен: {r_zp_ks:.4f}')

Коэффициент корреляции Пирсона равен: 0.8875


In [29]:
np.corrcoef(zp, ks)

array([[1.        , 0.88749009],
       [0.88749009, 1.        ]])

## Задание 2
### Измерены значения IQ выборки студентов, обучающихся в местных технических вузах: 131, 125, 115, 122, 131, 115, 107, 99, 125, 111. Известно, что в генеральной совокупности IQ распределен нормально.
### Найдите доверительный интервал для математического ожидания с надежностью 0.95.

Воспользуемся формулой

$$
    \overline{X} \pm t_{\alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}}
$$

    a = 1 - 0.95 = 0.05
    Определяем критерий Стьюдента t по таблице для 
    v = n - 1 = 9 
    a / 2 = 0.05 / 2 = 0.025 
    t = 2.262

In [3]:
import numpy as np

x = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])
m = x.mean()
s = x.std(ddof=1)
n = 10
t = 2.262 # из таблицы

print(f'Доверительный интервал: {m - (t * s / n ** 0.5):.4}, {m + (t * s / n ** 0.5):.4}')

Доверительный интервал: 110.6, 125.6


## Задание 3
### Известно, что рост футболистов в сборной распределен нормально с дисперсией генеральной совокупности, равной 25 кв.см. Объем выборки равен 27, среднее выборочное составляет 174.2. 
### Найдите доверительный интервал для математического ожидания с надежностью 0.95.

Воспользуемся формулой

$$
    \overline{X} \pm z_{\alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}}
$$

    a = 1 - 0.95 = 0.05
    Определяем z по даблице для значения 0,975 (1 - a / 2)
    z = 1.96

In [6]:
m = 174.2
n = 27
p = 0.95
d = 25
a = 0.05 # 1 - p
z = 1.96 # из таблицы
s = d ** 0.5
print(f'Доверительный интервал: {m - (z * s / n ** 0.5):.4}, {m + (z * s / n ** 0.5):.4}')

Доверительный интервал: 172.3, 176.1
