In [7]:
import numpy as np
import pandas as pd

## Задача 6-1.
Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks):
zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110],
ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832].
1) Найдите ковариацию этих двух величин с помощью элементарных действий, а затем с помощью функции cov из numpy
Полученные значения должны быть равны.

2) Найдите коэффициент корреляции Пирсона с помощью ковариации и среднеквадратичных отклонений двух признаков,
а затем с использованием функций из библиотек numpy и pandas.

## Решение:
1) [1] Вычислим ковариацию полученных данных согласно формуле:
$$\mathsf{cov_{XY}} = M[(X - M(X))(Y - M(Y))] = M(XY) - M(X)\cdot M(Y)$$

где $X$ и $Y$ - выборки данных, $M$ - математическое ожидание

In [8]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])
print ('Ковариация равна: 𝖼𝗈𝗏 =', (round(((zp * ks).mean() - zp.mean() * ks.mean()), 2)))

Ковариация равна: 𝖼𝗈𝗏 = 9157.84


[2] применим функцию $\mathsf{\color{green}{cov}}$ из пакета $\mathsf{\color{darkblue}{numpy}}$ и сравним полученные значения:

In [9]:
print ('Не смещенная оценка:', round((np.cov(zp, ks)[0, 1]), 2))
print ('Смещенная оценка:', (np.cov(zp, ks, ddof = 0)[0, 1]))

Не смещенная оценка: 10175.38
Смещенная оценка: 9157.84


2) Зная ковариацию и среднее квадратичное отклонение каждого из двух признаков, можно вычислить коэффициент корреляции Пирсона:
$$r_{XY} = \frac{\mathsf{cov_{XY}}}{\sigma_{X}\sigma_{Y}}$$

In [10]:
print ('Не смещенная оценка zp:', round((zp.std(ddof = 1)), 3))
print ('Не смещенная оценка ks:', round((ks.std(ddof = 1)), 3))
print ('Коэффициент корреляции Пирсона по не смещенной оценке:', round(((np.cov(zp, ks)[0, 1]) / ((zp.std(ddof = 1)) * (ks.std(ddof = 1)))), 5))
print ('Коэффициент корреляции Пирсона по смещенной оценке:', round(((np.cov(zp, ks, ddof = 0)[0, 1]) / (zp.std() * ks.std())), 5))

Не смещенная оценка zp: 62.313
Не смещенная оценка ks: 183.995
Коэффициент корреляции Пирсона по не смещенной оценке: 0.88749
Коэффициент корреляции Пирсона по смещенной оценке: 0.88749


$\color{red}{\textbf {UPD}}$ решение 6-1 через $\mathsf{\color{darkblue}{pandas}}$

In [11]:
df = pd.DataFrame({'zp':zp, 'ks':ks}, columns = ['zp', 'ks'])
df

Unnamed: 0,zp,ks
0,35,401
1,45,574
2,190,874
3,200,919
4,40,459
5,70,739
6,54,653
7,150,902
8,120,746
9,110,832


In [12]:
print ('Не смещенная оценка:', round((df.cov().values[0, 1]), 2))
df.corr()

Не смещенная оценка: 10175.38


Unnamed: 0,zp,ks
zp,1.0,0.88749
ks,0.88749,1.0


## Ответ 6-1:
### 1) Ковариация равна: $\mathsf{cov_{zp,\:ks}} = 9157.84$
### 2) Коэффициент корреляции Пирсона равен: $r_{zp,\:ks} = 0.88749$

## Задача 6-2.
Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:
131, 125, 115, 122, 131, 115, 107, 99, 125, 111. Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью 0.95

## Решение:
Т.к. параметры генеральной совокупности неизвестны, кроме того, что распределение нормальное, то будем использовать распределение Стюдента для нахождения доверительного интервала по формуле:
$$P \left(\overline{X} + t_{\dfrac \alpha 2} \cdot \dfrac \sigma {\sqrt{n}} 
\leq M(X) \leq \overline{X} + t_{\dfrac \alpha 2} \cdot \dfrac \sigma {\sqrt{n}}\right)$$

In [13]:
from scipy import stats
m = 0.95
iq = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])
x_mean = iq.mean()
n =  iq.shape[0]
a_2 = round(((1 - m) / 2), 3)
t = stats.t.ppf(1-a_2, n-1)
sigma = iq.std(ddof=1)
P = [round((x_mean- t * sigma / np.sqrt(n)), 3), round((x_mean + t * sigma / np.sqrt(n)), 3)]
print(f'Выборочная средняя: 𝑋 = {x_mean}')
print(f'Размер выборки: n = {n}')
print(f'Распределения Стьюдента t = {round(t, 3)} для выборки из n = {n} c надежностью 0.95')
print(f'Выборочное смещенное среднеквадратичное отклонение: 𝜎 = {round(sigma, 4)}')
print(f'Доверительный интервал для математического ожидания с надежностью 0.95: P = {P}')

Выборочная средняя: 𝑋 = 118.1
Размер выборки: n = 10
Распределения Стьюдента t = 2.262 для выборки из n = 10 c надежностью 0.95
Выборочное смещенное среднеквадратичное отклонение: 𝜎 = 10.5457
Доверительный интервал для математического ожидания с надежностью 0.95: P = [110.556, 125.644]


## Ответ 6-2:
### Доверительный интервал для математического ожидания с надежностью 0.95 равен: P = [110.556, 125.644]

## Задача 6-3.
Известно, что рост футболистов в сборной распределен нормально с дисперсией генеральной совокупности, равной 25 кв.см. Объем выборки равен 27, среднее выборочное составляет 174.2. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

## Решение:
[1] Найдем доверительный интервал согласно формуле:
$\mu \pm Z_{\frac \alpha 2} \cdot \dfrac \sigma {\sqrt{n}}$, где:
- $n = 27$
- $1-\alpha = 95\%$
- $\alpha = 5\%$
- $\mu = 174.2$
- $\sigma^2 = 25$

In [14]:
a_2 = round(((1 - m) / 2), 3)
print(f'Значение 𝛼/2 = {a_2}')

Значение 𝛼/2 = 0.025


[2] Табличное значение $Z$-критерия для $1-{\frac \alpha 2}=1-0.025=0.975$ составляет $Z=1.96$

[3] Внесем известные значения в формулу [1] и вычислим границы доверительного интервала:

In [15]:
n = 27
mu = 174.2
sq_sig = 25
sig = np.sqrt(sq_sig)
z = 1.96
print(f'𝜎 = {sig}')
print(f'Левая граница доверительного интервала равна {round((mu - (z * sig / (np.sqrt(n)))), 3)}')
print(f'Правая граница доверительного интервала равна {round((mu + (z * sig / (np.sqrt(n)))), 3)}')

𝜎 = 5.0
Левая граница доверительного интервала равна 172.314
Правая граница доверительного интервала равна 176.086


## Ответ 6-3:
### Доверительный интервал для математического ожидания с надежностью 0.95 равен: P = [172.314, 176.086]