In [1]:
import numpy as np
import scipy.stats as st

### 1)
**Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks):**

**zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110],**

**ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832].**

**Найдите ковариацию этих двух величин с помощью элементарных действий, а затем с помощью функции cov из numpy
Полученные значения должны быть равны.
Найдите коэффициент корреляции Пирсона с помощью ковариации и среднеквадратичных отклонений двух признаков,
а затем с использованием функций из библиотек numpy и pandas.**

In [2]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])
X = zp
Y = ks

In [3]:
assert len(X) == len(Y), "Длины массивов должны совпадать"
n = len(X)

$$cov_{XY} = M[(X - M(X))(Y - M(Y))] = M(XY) - M(X)M(Y)=\overline{X \cdot Y} - \overline{X} \cdot \overline{Y}$$

**Ковариацию с помощью элементарных действий:**

In [4]:
cov_xy = (X * Y).sum() / n - X.sum() / n * Y.sum() / n
cov_xy

9157.839999999982

**С помощью функций numpy:**

In [5]:
np.cov(X, Y, ddof=0)[0, 1]

9157.84

$$r_{XY} = \frac{cov_{XY}}{\sigma_{X}\sigma_{Y}}$$

**Коэффициент корреляции Пирсона с помощью ковариации и среднеквадратичных отклонений двух признаков:**

$\sigma_{X}$

In [6]:
x_mean = np.sum(X) / n
sigma_x = np.sqrt(np.sum((X - x_mean)**2) / n)
sigma_x

59.115480206118605

$\sigma_{Y}$

In [7]:
y_mean = np.sum(Y) / n
sigma_y = np.sqrt(np.sum((Y - y_mean)**2) / n)
sigma_y

174.55340157098058

$r_{XY}$

In [8]:
r = cov_xy / (sigma_x * sigma_y)
r

0.8874900920739144

**С помощью функций numpy:**

In [9]:
np.corrcoef(X, Y)[0, 1]

0.8874900920739162

### 2)
**Измерены значения IQ выборки студентов,
обучающихся в местных технических вузах:
131, 125, 115, 122, 131, 115, 107, 99, 125, 111.
Известно, что в генеральной совокупности IQ распределен нормально.
Найдите доверительный интервал для математического ожидания с надежностью 0.95.**

In [10]:
X = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])

In [11]:
n = len(X) # n = 10

Так как нам неизвестна дисперсия генеральной совокупности, будем использовать T-критерий.

Доверительный интервал: $$T_{1,2}=\overline{X}\pm t_{\frac{a}{2}}\cdot \frac{s}{\sqrt{n}}$$

Среднее по выборке $\overline{X}$:

In [12]:
X_bar = X.mean()
X_bar

118.1

Стандартное отклонение по выборке $s$ будем считать несмещенное, так как выборка меленькая $n=10$

In [13]:
s = X.std(ddof=1)
s

10.54566788359614

Найдем табличное значение t для $\frac{\alpha}{2} = \frac{0.05}{2}=0.025$ и для степени свободы $df(n-1)=10-1=9$

![Т-критерий (табличные значения коэффициента Стьюдента)](http://sixsigmaonline.ru/Articles/0000106.png)

In [14]:
t = 2.262

In [15]:
T1 = X_bar - (t * s / np.sqrt(n))
T1

110.55660776308164

In [16]:
T2 = X_bar + (t * s / np.sqrt(n))
T2

125.64339223691834

**Ответ: С доверительной вероятностью 95% интрервал равен $[110.557, 125.643]$**

### 3)
**Известно, что рост футболистов в сборной распределен нормально
с дисперсией генеральной совокупности, равной 25 кв.см. Объем выборки равен 27,
среднее выборочное составляет 174.2. Найдите доверительный интервал для математического
ожидания с надежностью 0.95.**

Так как нам известна дисперсия генеральной совокупности, будем использовать Z-критерий.

Доверительный интервал: $$T_{1,2}=\overline{X}\pm z_{\frac{a}{2}}\cdot \frac{\sigma}{\sqrt{n}}$$

Среднее по выборке $\overline{X}$:

In [17]:
X_bar = 174.2
X_bar

174.2

Стандартное отклонение генеральной совокупности $\sigma$

In [18]:
variance = 25  # дисперсия ген. сов-ти 25 кв.см
sigma = np.sqrt(variance)
sigma

5.0

Объем выборки:

In [19]:
n = 27

Найдем значение z для $\frac{\alpha}{2} = \frac{0.05}{2}=0.025$

In [20]:
alpha = 1 - 0.95

In [21]:
z = st.norm.ppf(1 - alpha / 2)
z

1.959963984540054

Или по таблице для 0.975 $(1 - \frac{\alpha}{2}$)

![positive](https://www.ztable.net/wp-content/uploads/2018/11/positiveztable.png)

Найдем границы интервала $T_{1,2}$

In [22]:
T1 = X_bar - (z * sigma / np.sqrt(n))
T1

172.3140237765397

In [23]:
T2 = X_bar + (z * sigma / np.sqrt(n))
T2

176.08597622346028

**Ответ: С доверительной вероятностью 95% интрервал равен $[172.314, 176.086]$**