In [52]:
import numpy as np
import pandas as pd
from scipy.stats import norm, t

### 1) Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks): 
### zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110],
### ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832].
### Найдите ковариацию этих двух величин с помощью элементарных действий, а затем с помощью функции cov из numpy
### Полученные значения должны быть равны.
### Найдите коэффициент корреляции Пирсона с помощью ковариации и среднеквадратичных отклонений двух признаков, а затем с использованием функций из библиотек numpy и pandas.

In [44]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

Ковариация рассчитывается по формуле:
$$ cov_{XY} = M(XY) - M(X)M(Y) $$

In [56]:
cov = np.mean(zp*ks) - np.mean(zp)*np.mean(ks)
cov = round(cov, 4)

cov, np.cov(zp, ks, ddof=0)[0, 1]

(9157.84, 9157.84)

Коэффициент корреляции Пирсона:
$$ r_{XY} = \frac{cov_{XY}}{\sigma_X*\sigma_Y} $$

In [57]:
# смещенная ковариация
cov_0 = np.cov(zp, ks, ddof=0)[0, 1]
# несмещенная ковариация
cov_1 = np.cov(zp, ks, ddof=1)[0, 1]

# смещенное среднее квадратичное отклонение zp
sigma_zp_0 = np.std(zp, ddof=0)
# несмещенное среднее квадратичное отклонение zp
sigma_zp_1 = np.std(zp, ddof=1)

# смещенное среднее квадратичное отклонение ks
sigma_ks_0 = np.std(ks, ddof=0)
# несмещенное среднее квадратичное отклонение ks
sigma_ks_1 = np.std(ks, ddof=1)

In [60]:
# для смещенного и несмещенного
cov_0/(sigma_zp_0*sigma_ks_0), cov_1/(sigma_zp_1*sigma_ks_1)

(0.8874900920739162, 0.887490092073916)

In [76]:
# NumPy и Pandas
np.corrcoef(zp, ks)[0, 1], pd.Series(zp).corr(pd.Series(ks))

(0.8874900920739162, 0.8874900920739162)

### 2) Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:
### 131, 125, 115, 122, 131, 115, 107, 99, 125, 111.
### Известно, что в генеральной совокупности IQ распределен нормально.
### Найдите доверительный интервал для математического ожидания с надежностью 0.95.

Среднее квадратичное отклонение генеральной совокупности неизвестно. Используется T-критерий Стьюдента

$$ T_{1, 2} = \overline{X} \pm t_\frac{\alpha}{2} * \frac{\sigma}{\sqrt{n}} $$

In [21]:
a = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])

# среднее выборочное
mean = a.mean()

# среднее квадратичное отклонение (несмещенное)
s = a.std(ddof=1)

# размер выборки
n = a.shape[0]

# альфа
alpha = 1 - 0.95

student = t.ppf(1 - alpha/2, n-1)

In [22]:
T1 = mean - student * (s/n**(1/2))
T2 = mean + student * (s/n**(1/2))

interval = [T1, T2]

In [23]:
print('Ответ:', interval)

Ответ: [110.55608365158724, 125.64391634841274]


### 3) Известно, что рост футболистов в сборной распределен нормально с дисперсией генеральной совокупности, равной 25 кв.см. Объем выборки равен 27, среднее выборочное составляет 174.2. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

Дисперсия генеральной совокупности известна. Используется z-критерий

$$ \overline{X} \pm Z_\frac{\alpha}{2} * \frac{\sigma}{\sqrt{n}} $$

In [27]:
# дисперсия генеральной совокупности
var = 25
# стандартное отклонение
std = var**(1/2)

# размер выборки
n = 27

# среднее выборочное
mean = 174.2

# альфа
alpha = 1 - 0.95

z = norm.ppf(1 - alpha/2)

In [28]:
l = mean - z * (s/n**(1/2))
r = mean + z * (s/n**(1/2))

interval = [l, r]

In [29]:
print('Ответ:', interval)

Ответ: [170.22222422220577, 178.1777757777942]
