In [1]:
import numpy as np
import pandas as pd
import scipy.stats as st

# Задача 1
**Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks): zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110], ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]. Найдите ковариацию этих двух величин с помощью элементарных действий, а затем с помощью функции cov из numpy Полученные значения должны быть равны. Найдите коэффициент корреляции Пирсона с помощью ковариации и среднеквадратичных отклонений двух признаков, а затем с использованием функций из библиотек numpy и pandas.**

Ковариация рассчитывается по формуле: $cov_{xy}=M(X \cdot Y) - M(X) \cdot M(Y)$, где M — математическое ожидание. $M(X \cdot Y) = 81141.7; M(X) = 101.4; M(Y) = 709.9; cov_{xy} = 9157.84$.

Коэффициент корелляции Пирсона рассчитывается по формуле $r_{xy} = \frac {cov_{xy}} {{{\sigma}_x} \cdot {{\sigma}_y}}$. Стандартное отклонение рассчитываем смещенным.

$\overline{x} = 101.4000; \sigma_{x} = \sqrt{\frac{1}{n} \cdot \sum_{i = 1}^{n}\left( x_{i} - \overline{x} \right)^{2}};\sum_{i = 1}^{n}\left( x_{i} - \overline{x} \right)^{2} = 34946.4000; \Rightarrow \sigma_{x} = \sqrt{\frac{34946.4000}{10}} \approx 59.1155;$

$\overline{y} = 709.9000; \sigma_{y} = \sqrt{\frac{1}{n} \cdot \sum_{i = 1}^{n}\left( y_{i} - \overline{y} \right)^{2}};\sum_{i = 1}^{n}\left( y_{i} - \overline{y} \right)^{2} = 304688.9000
; \Rightarrow \sigma_{y} = \sqrt{\frac{304688.9000}{10}} \approx 174.5534;$

$r_{xy} = \frac {cov_{xy}} {{{\sigma}_x} \cdot {{\sigma}_y}} =  \frac {9157.84} {{59.1155} \cdot {174.5534}}=0.8875$.

In [2]:
x = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
y = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

cov_xy = np.cov(x, y, ddof=0)
coef_cor = np.corrcoef(x, y)
print (f'Ковариация - {cov_xy[0][1]}')
print (f'Коэффициент корелляции - {round(coef_cor[0][1], 4)}')

Ковариация - 9157.84
Коэффициент корелляции - 0.8875


*Ответ: $cov_{xy}=9157.84, r_{xy}=0.8875$*.

# Задача 2
**Измерены значения IQ выборки студентов, обучающихся в местных технических вузах: 131, 125, 115, 122, 131, 115, 107, 99, 125, 111. Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью 0.95.**

Средневадратичное отклонение генеральной выборки $ \sigma $ неизвестно. Поэтому, доверительный интевал      оценивается с помощю критерия Стьюдента. В этом случае доверительный интервал определяется выражением $\overline{X}\pm t_ {\frac{\alpha}{2}} \cdot {\frac{\sigma}{\sqrt{n}}}$ , а $ \sigma $ и $\overline{X} $ рассчитвается для имеющейся выборки. Для рассчета $t_{\frac{\alpha}{2}}$ также воспользуемся функциями Python. Производим рассчет:

In [3]:
x = [131, 125, 115, 122, 131, 115, 107, 99, 125, 111]
n = len(x)  # Объем выборки
k = n - 1   # Количество степеней свободы
x_mean = np.mean(x)
sigma = np.sqrt(np.var(x, ddof=1)) # Квадратный корень из несмещенной дисперсии.
alpha = 1 - 0.95
tscore = st.t.ppf(1 - alpha/2, k)
delta = tscore * sigma / np.sqrt(n)
print (f'Ответ: Доверительный интервал - [{x_mean - delta}, {x_mean + delta}]')

Ответ: Доверительный интервал - [110.55608365158724, 125.64391634841274]


*Ответ: [110.5561, 125.6439]*.

# Задача 3
**Известно, что рост футболистов в сборной распределен нормально с дисперсией генеральной совокупности, равной 25 кв.см. Объем выборки равен 27, среднее выборочное составляет 174.2. Найдите доверительный интервал для математического ожидания с надежностью 0.95.**

Доверительный интервал определяется выражением $\overline{X}\pm Z_ {\frac{\alpha}{2}} \cdot {\frac{\sigma}{\sqrt{n}}}$ .

Известно, что:
* $\overline{X} = 174.2 $ ;
* $\sigma = \sqrt{25} = 5 $ ;
* $\alpha = 1 - 0.95 = 0.05$ ;
* $\frac{\alpha} {2} = 0.025$ ; 
* $n = 27$ ;

Найдем критическое значение Z, т. к. у нас известно значение $\sigma$ и генеральная совокупность распределена нормально. Табличное значение $Z_{\frac{\alpha} {2} = 0.0250} \approx 1.9600 $ , но можно воспользоваться функцией norm.ppf (Percent Point Function) библиотеки Python scipy.stats. Рассчитаем:

In [4]:
x_mean = 174.2
sigma = 5
alpha = 1 - 0.95
z_score = st.norm.ppf(1 - alpha/2)
n = 27
delta = z_score * sigma / np.sqrt(n)
print (f'Ответ: Доверительный интервал - [{x_mean - delta}, {x_mean + delta}]')

Ответ: Доверительный интервал - [172.3140237765397, 176.08597622346028]


*Ответ: [172.3140, 176.0860]*.