In [1]:
import numpy as np
import scipy.stats as st

# Взаимосвязь величин. Параметрические и непараметрические показатели корреляции. Корреляционный анализ.

### Задание 1

*Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks):*

*zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110],*

*ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832].*

*Найдите ковариацию этих двух величин с помощью элементарных действий, а затем с помощью функции cov из numpy. Полученные значения должны быть равны.*

*Найдите коэффициент корреляции Пирсона с помощью ковариации и среднеквадратичных отклонений двух признаков, а затем с использованием функций из библиотек numpy и pandas.*

Ковариация двух случайных величин вычисляется по формуле

$$\text{cov}(X, Y) = M(XY) - M(X)M(Y),$$

где $M$ - математическое ожидание.

По условию даны две выборки $x_i$, $y_i$ тогда можно вычислить смещенную выборочную ковариацию с использованием выборочного среденего:

$$\text{cov}(X, Y) = M(XY) - M(X)M(Y) = \frac{1}{n} \sum_{i=1}^n x_i y_i - \overline{X}\overline{Y} = \frac{1}{n} \sum_{i=1}^n x_i y_i - \left( \frac{1}{n} \sum_{i=1}^n x_i \right)\left( \frac{1}{n} \sum_{i=1}^n y_i \right) \approx 9157.836.$$

Коэффициент корреляции Пирсона вычисляется по формуле:

$$r_{XY} = \frac{\text{cov}(X, Y)}{\sigma_X \sigma_Y}.$$

Т.к. вычислили смещенную ковариацию, то для стандартного отклонения будем использовать также формулу смещенной оценки:

$$\sigma_X = \sqrt{\frac{\sum_{i = 1}^n \left(x_i - \overline{X} \right)^2}{n}} \approx 59.115,$$

$$\sigma_Y = \sqrt{\frac{\sum_{i = 1}^n \left(y_i - \overline{Y} \right)^2}{n}} \approx 174.553.$$

Используя полученные значения вычислим коэффициент корреляции Пирсона:

$$r_{XY} = \frac{\text{cov}(X, Y)}{\sigma_X \sigma_Y} = \frac{9157.836}{59.115 \cdot 174.553} \approx 0.887.$$

**Ответ:** $\text{cov}(X, Y) \approx 9157.836, r_{XY}\approx 0.887.$

In [2]:
x = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110], dtype=np.float32)
y = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832], dtype=np.float32)

cov_el = np.mean(x * y) - np.mean(x) * np.mean(y)
cov_np = np.cov(x, y, ddof=0)

print('Матрица ковариации numpy:')
print(f'{cov_np}\n')

print(f'cov_el = {cov_el}')
print(f'cov_np = {cov_np[0, 1]}\n')

sigma_X = np.std(x, ddof=0)
sigma_Y = np.std(y, ddof=0)

r_el = cov_el / (sigma_X * sigma_Y)
r_np = np.corrcoef(x, y)

print(f'sigma_X = {sigma_X}')
print(f'sigma_Y = {sigma_Y}\n')

print('Коэффициент корреляции Пирсона numpy:')
print(f'{r_np}\n')

print(f'r_el = {r_el}')
print(f'r_np = {r_np[0, 1]}')

Матрица ковариации numpy:
[[ 3494.64  9157.84]
 [ 9157.84 30468.89]]

cov_el = 9157.8359375
cov_np = 9157.84

sigma_X = 59.115482330322266
sigma_Y = 174.5534210205078

Коэффициент корреляции Пирсона numpy:
[[1.         0.88749009]
 [0.88749009 1.        ]]

r_el = 0.8874895572662354
r_np = 0.8874900920739162


### Задание 2

*Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:*

*131, 125, 115, 122, 131, 115, 107, 99, 125, 111.*

*Известно, что в генеральной совокупности IQ распределен нормально.*

*Найдите доверительный интервал для математического ожидания с надежностью 0.95.*

Неизвестна $\sigma$ генеральной совокупности, поэтому доверительный интервал строится по формуле

$$\overline {X} \pm t_{\frac{\alpha}{2}} \frac{\sigma_{\text{н}}}{\sqrt{n}},$$

где $t_{\frac{\alpha}{2}}$ определяется по таблице Стьюдента.

По условию задачи $n = 10$.

Вычислим выборочное среднее и несмещенную оценку стандартного отклонения, рассчитанного по выборке, по формулам:

$$\overline{X} = \frac{1}{n} \sum_{i = 1}^n x_i \approx 118.1,$$

$$\sigma_{\text{н}} = \sqrt{\frac{\sum_{i = 1}^n \left(x_i - \overline{X} \right)^2}{n - 1}} \approx 10.546.$$

Требуемая надежность 0.95, т.е. $\alpha = 0.05$. Тогда по таблице Стьюдента найдем $t_{\frac{\alpha}{2}}$ для значения $\frac{\alpha}{2} = 0.025$ и для числа степеней свободы $k = n - 1 = 9$:

$$t_{\frac{\alpha}{2}} = 2.262.$$

Используя полученные значения, построим доверительный интервал

$$\overline {X} \pm t_{\frac{\alpha}{2}} \frac{\sigma_{\text{н}}}{\sqrt{n}} = 118.1 \pm 2.262 \frac{10.546}{\sqrt{10}} = 118.1 \pm 7.543.$$

**Ответ: [110.557; 125.643] - 95% доверительный интервал.**

In [3]:
a = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111], dtype=np.float32)
M = np.mean(a)
sigma = np.std(a, ddof=1)
n = len(a)
t = 2.262

print(f'M = {M}')
print(f'sigma = {sigma}\n')

print(f't_table = {2.262}')
print(f't_scipy = {st.t.ppf(0.975, n - 1)}\n')

print(f'Левая граница = {M - t * sigma / np.sqrt(n)}')
print(f'Правая граница = {M + t * sigma / np.sqrt(n)}')

M = 118.0999984741211
sigma = 10.54566764831543

t_table = 2.262
t_scipy = 2.2621571627409915

Левая граница = 110.55660640550073
Правая граница = 125.64339054274146


### Задание 3

*Известно, что рост футболистов в сборной распределен нормально с дисперсией генеральной совокупности, равной 25 кв.см. Объем выборки равен 27, среднее выборочное составляет 174.2.* 

*Найдите доверительный интервал для математического ожидания с надежностью 0.95.*

Известна $\sigma$ генеральной совокупности, поэтому доверительный интервал строится по формуле

$$\overline{X} \pm Z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}},$$

где $Z_{\frac{\alpha}{2}}$ определяется по таблице Z-значений.

Требуемая надежность 0.95, т.е. $\alpha = 0.05$. Тогда по таблице Z-значений найдем $Z_{\frac{\alpha}{2}}$ для значения 0.975:

$$Z_{\frac{\alpha}{2}} = 1.96.$$

По условию задачи $\overline{X} = 174.2$, $\sigma = \sqrt{D} = \sqrt{25} = 5$, $n = 27$. Тогда доверительный интервал равен

$$\overline{X} \pm Z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} = 174.2 \pm 1.96 \frac{5}{\sqrt{27}} = 174.2 \pm 1.886.$$

**Ответ: [172.314; 176.086] - 95% доверительный интервал.**

In [4]:
M = 174.2
Z = 1.96
sigma = np.sqrt(25)
n = 27

print(f'Z_table = {Z}')
print(f'Z_scipy = {st.norm.ppf(0.975)}\n')

print(f'Левая граница = {M - Z * sigma / np.sqrt(n)}')
print(f'Правая граница = {M + Z * sigma / np.sqrt(n)}')

Z_table = 1.96
Z_scipy = 1.959963984540054

Левая граница = 172.31398912064722
Правая граница = 176.08601087935276
