In [40]:
import pandas as pd
import numpy as np
import scipy.stats as stats

**1. Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks):**

**zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110],**

**ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832].**

**Найдите ковариацию этих двух величин с помощью элементарных действий, а затем с помощью функции cov из numpy. Полученные значения должны быть равны.**

**Найдите коэффициент корреляции Пирсона с помощью ковариации и среднеквадратичных отклонений двух признаков, а затем с использованием функций из библиотек numpy и pandas.**

По условию задачи:

$zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]$

$ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]$

\

Найдем **коэффициент ковариации** по следующей формуле:

$cov_{XY} = M[(X - M(X))(Y - M(Y))] = M(XY) - M(X)M(Y)=\overline{X \cdot Y} - \overline{X} \cdot \overline{Y}$

Найдем средние значения данных величин:

$M(zp) = \frac{35 + 45 + 190 + 200 + 40 + 70 + 54 + 150 + 120 + 110}{10} = \frac{1014}{10} = 101.4$

$M(ks) = \frac{401 + 574 + 874 + 919 + 459 + 739 + 653 + 902 + 746 + 832}{10} = \frac{7099}{10} = 709.9$

$M(zp*ks) = \frac{35*401 + 45*574 + 190*874 + 200*919 + 40*459 + 70*739 + 54*653 + 150*902 + 120*746 + 110*832}{10} = \frac{811417}{10} = 81141.7$

Подставим значения:

$cov = 81141.7 - 101.4 * 709.9 = 81141.7 - 71983.86 = {\color {red}{9157.84}}$

\

Найдем **коэффициент корреляции Пирсона** по формуле:

$r_{XY} = \frac{cov_{XY}}{\sigma_{X}\sigma_{Y}}$

Посчитаем дисперсию и среднее квадратичное отклонение данных величин:

$D(zp) = \frac{(35-101.4)^2 + (45-101.4)^2 + (190-101.4)^2 + (200-101.4)^2 + (40-101.4)^2 + (70-101.4)^2 + (54-101.4)^2 + (150-101.4)^2 + (120-101.4)^2 + (110-101.4)^2}{10} = \frac{34946.4}{10} = 3494.63$

$\sigma(zp) = \sqrt{3494.63} = 186.94$

$D(zp) = \frac{(401-709.9)^2 + (574-709.9)^2 + (874-1709.9)^2 + (919-709.9)^2 + (459-709.9)^2 + (739-709.9)^2 + (653-709.9)^2 + (902-709.9)^2 + (746-709.9)^2 + (832-709.9)^2}{10} = \frac{304688.9}{10} = 30468.89$

Найдем среднее квадратичное отклонение:

$\sigma(zp) = \sqrt{30468.89} = 551.99$

Подставим значения:

$r = \frac{9157.84}{186.94*551.99} = \frac{9157.84}{103189.01} = {\color {red}{0.09}}$

In [None]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

cov = np.mean(zp*ks) - np.mean(zp)*np.mean(ks)
cov_2 = np.cov(zp, ks, ddof=0)

corr = cov/(np.std(zp, ddof=0)*np.std(ks, ddof=0))
corr_2 = np.corrcoef(zp, ks)

print(f'Вручную: \nКовариация: {cov} \nКорреляция: {corr}\n')
print(f'Numpy: \nКовариация:\n{cov_2} \n\nКорреляция:\n{corr_2}')

Вручную: 
Ковариация: 9157.839999999997 
Корреляция: 0.8874900920739158

Numpy: 
Ковариация:
[[ 3494.64  9157.84]
 [ 9157.84 30468.89]] 

Корреляция:
[[1.         0.88749009]
 [0.88749009 1.        ]]


**2. Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:**

**131, 125, 115, 122, 131, 115, 107, 99, 125, 111.**

**Известно, что в генеральной совокупности IQ распределен нормально.**

**Найдите доверительный интервал для математического ожидания с надежностью 0.95.**

По условию задачи:

$X_{exp} = [131, 125, 115, 122, 131, 115, 107, 99, 125, 111]$

$\alpha = 0.05$

$n = 10$

Так как $\sigma$ неизвестна, воспользуемся $t$-критерием Стьюдента.

Найдем $t$ для построения $95$%-го доверительного интервала, $n=10$.

$t_{\frac{\alpha}{2}} = 2.262$

Посчитаем среднее арифметическое значение:

$\mu = \frac{131 + 125 + 115 + 122 + 131 + 115 + 107 + 99 + 125 + 111}{10} = 118.1$

Посчитаем несмещенную дисперсию:

$D = \frac{(131-118.1)^2 + (125-118.1)^2 + (115-118.1)^2 + (122-118.1)^2 + (131-118.1)^2 + (115-118.1)^2 + (107-118.1)^2 + (99-118.1)^2 + (125-118.1)^2 + (111-118.1)^2}{10-1} = \frac{1000.9}{9} = 111.21$

Найдем среднее квадратичное отклонение:

$\sigma = \sqrt{111.21} = 10.55$

Доверительные интервалы найдем по формуле:

$T_{1,2} = \overline{X} \pm t_{\frac{\alpha}{2}}*\frac{\sigma}{\sqrt{n}}$

Подставим значения:

$T_{1,2} = 118.1 \pm 2.262*\frac{10.55}{\sqrt{10}}$

$T_{1} = 110.55$

$T_{2} = 125.65$

${\color {red}{Ответ:\,[110.55,\,125.65]}}$

In [41]:
x_exp = [131, 125, 115, 122, 131, 115, 107, 99, 125, 111]
alpha = 0.05
n = 10

# Расчет t-критерия Стьюдента
# stats.t(n-1).isf(alpha/2)

mu = np.mean(x_exp)
D = np.var(x_exp, ddof=1)
sigma = np.sqrt(D)
T_1 = mu + stats.t(n-1).isf(alpha/2)*(sigma/np.sqrt(n))
T_2 = mu - stats.t(n-1).isf(alpha/2)*(sigma/np.sqrt(n))

print(f'Доверительный интервал: [{T_2:.2f}, {T_1:.2f}]')

Доверительный интервал: [110.56, 125.64]


**3. Известно, что рост футболистов в сборной распределен нормально
с дисперсией генеральной совокупности, равной 25 кв.см. Объем выборки равен 27,
среднее выборочное составляет 174.2. Найдите доверительный интервал для математического ожидания с надежностью 0.95.**

По условию задачи:

$D = 25$

$n = 27$

$\mu = 174.2$

$\alpha = 0.05$

Найдем среднюю квадратичную ошибку:

$\sigma = \sqrt{25} = 5$

Так как $\sigma$ известна, воспользуемся критерием $Z$.

$Z_{\frac{\alpha}{2}} = 1.96$

Доверительные интервалы найдем по формуле:

$T_{1,2} = \overline{X} \pm Z_{\frac{\alpha}{2}}*\frac{\sigma}{\sqrt{n}}$



Подставим значения:

$T_{1,2} = 174.2 \pm 1.96*\frac{5}{\sqrt{27}}$

$T_{1} = 172.31$

$T_{2} = 176.09$

${\color {red}{Ответ:\,[172.31,\,176.09]}}$

In [42]:
D = 25
alpha = 0.05
n = 27
mu = 174.2


T_1 = mu + stats.norm.ppf(1 - alpha/2)*(np.sqrt(D)/np.sqrt(n))
T_2 = mu - stats.norm.ppf(1 - alpha/2)*(np.sqrt(D)/np.sqrt(n))

print(f'Доверительный интервал: [{T_2:.2f}, {T_1:.2f}]')

Доверительный интервал: [172.31, 176.09]
