### 1. Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks):
zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110],
ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832].
Найдите ковариацию этих двух величин с помощью элементарных действий, а затем с помощью функции cov из numpy
Полученные значения должны быть равны.
Найдите коэффициент корреляции Пирсона с помощью ковариации и среднеквадратичных отклонений двух признаков,
а затем с использованием функций из библиотек numpy и pandas.


### Показатели корреляции

__Ковариация__ — мера линейной зависимости случайных величин. Её формула похожа на формулу дисперсии (_variance_). 

Формула ковариации случайных величин $X$ и $Y$:
$$\operatorname{cov}(X, Y) = M\left( (X - M(X)) (Y - M(Y)) \right).$$

Несмещённую оценку ковариации можно посчитать следующим образом:
$$\sigma_{XY} = \dfrac{1}{n - 1} \displaystyle\sum_{i = 1}^n \left( x_i - \overline{X} \right) \cdot \left( y_i - \overline{Y} \right)$$

Здесь $X$, $Y$ — выборки размера $n$.

In [7]:
import numpy as np
import pandas as pd
from scipy import stats

In [9]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])
Mzp = zp.mean()
Mks = ks.mean()

cov = ((zp - Mzp) * (ks - Mks)).sum() / (zp.shape[0] - 1)
cov

10175.37777777778

In [10]:
np.cov(zp, ks, ddof=1)

array([[ 3882.93333333, 10175.37777778],
       [10175.37777778, 33854.32222222]])

In [11]:
zp.var(), ks.var()

(3494.6400000000003, 30468.890000000007)

__коэффициент корреляции Пирсона__:
$$r_{XY} = \dfrac{\sigma_{XY}}{\sigma_X \cdot \sigma_Y}$$

Здесь $\sigma_X$, $\sigma_Y$ — среднее квадратическое отклонение.

In [22]:
corr = cov / (zp.std(ddof=1) * ks.std(ddof=1))
corr
numpy_cor = pd.DataFrame({"zp": zp, "ks": ks}).corr()
numpy_cor

Unnamed: 0,zp,ks
zp,1.0,0.88749
ks,0.88749,1.0


In [14]:
np.corrcoef(zp, ks)

array([[1.        , 0.88749009],
       [0.88749009, 1.        ]])

### 2. Измерены значения IQ выборки студентов,
обучающихся в местных технических вузах:
131, 125, 115, 122, 131, 115, 107, 99, 125, 111.
Известно, что в генеральной совокупности IQ распределен нормально.
Найдите доверительный интервал для математического ожидания с надежностью 0.95.


In [23]:
iq = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])
p = 0.95
mean = iq.mean()
std = iq.std(ddof=1)

mean, std

(118.1, 10.54566788359614)

In [26]:
n = iq.shape[0]
alpha = 1 - p

t1 = stats.t.ppf(alpha / 2, df=n - 1)
t2 = stats.t.ppf(1 - alpha / 2, df=n - 1)

t1, t2

(-2.2621571627409915, 2.2621571627409915)

In [27]:
(mean + t1 * std / np.sqrt(n), mean + t2 * std / np.sqrt(n))

(110.55608365158724, 125.64391634841274)

### 3. Известно, что рост футболистов в сборной распределен нормально
с дисперсией генеральной совокупности, равной 25 кв.см. Объем выборки равен 27,
среднее выборочное составляет 174.2. Найдите доверительный интервал для математического
ожидания с надежностью 0.95.

__нормально распределённой__ случайной величины с __известной дисперсией__ $\sigma ^ 2$, и требуется построить доверительный интервал для математического ожидания $\mu$ с доверительной вероятностью $p$. Мы знаем, что в этом случае статистика
$$Z = \dfrac{\overline{X} - \mu}{\sigma / \sqrt{n}}$$
имеет стандартное нормальное распределение. 

Обозначим $\alpha = 1 - p$. Можно убедиться в том, что
$$P \left( t_{\alpha / 2} \leq Z \leq t_{1 - \alpha / 2} \right) = p,$$
где $t_{x}$ — квантиль порядка $x$ для стандартного нормального распределения. Подставляя сюда $Z$, получаем
$$P \left( t_{\alpha / 2} \leq \dfrac{\overline{X} - \mu}{\sigma / \sqrt{n}} \leq t_{1 - \alpha / 2} \right) = p$$
$$P \left( t_{\alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \leq \overline{X} - \mu \leq t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \right) = p$$


<center>
    <div style="width: 350px;border:1px solid black;">
        $P \left( \overline{X} + t_{\alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \leq \mu \leq \overline{X} + t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \right) = p$
    </div>
</center>

In [28]:
gen_var = 25
gen_std = np.sqrt(gen_var)
mean = 174.2
n = 27
p = 0.95
alpha = 1 - p

t1 = stats.norm.ppf(alpha / 2)
t2 = stats.norm.ppf(1 - alpha / 2)

mean + t1 * (gen_std / np.sqrt(n)), mean + t2 * (gen_std / np.sqrt(n))

(172.3140237765397, 176.08597622346028)