# Оглавление
1. [Взаимосвязь величин. Параметрические и непараметрические показатели корреляции. Корреляционный анализ.](#corr)
    * [Задание 1](#corr_1)
        * [Задание 1.1](#corr_1_1)
        * [Задание 1.2](#corr_1_2)
    * [Задание 2](#corr_2)
    * [Задание 3](#corr_3)

# Взаимосвязь величин. Параметрические и непараметрические показатели корреляции. Корреляционный анализ. <a class='anchor' id='corr'>

In [1]:
import numpy as np
from scipy.stats import norm, t

### Задание 1 <a class='anchor' id='corr_1'>
    
Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks):
    
zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110],

ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832].

In [2]:
# Выборки
x = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110], dtype=np.float32)
y = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832], dtype=np.float32)

**Задание 1.1** <a class='anchor' id='corr_1_1'>
    
*Найдите ковариацию этих двух величин с помощью элементарных действий, а затем с помощью функции cov из numpy. Полученные значения должны быть равны.*

Ковариация двух случайных величин вычисляется по следующей формуле:

$$\text{cov}_{XY} = M(X \cdot Y) - M(X) \cdot M(Y),$$

где $M$ - математическое ожидание.

По условию задачи даны две выборки $\text{zp} = x_i$, $\text{ks} = y_i$ тогда можно вычислить смещенную выборочную ковариацию, используя выборочное среденее:

$$\text{cov}_{XY} = \frac{1}{n}\sum_{i = 1}^n x_i y_i + \overline{X}\overline{Y} = \frac{1}{n}\sum_{i = 1}^n x_i y_i + \left( \frac{1}{n}\sum_{i = 1}^n x_i \right) \cdot \left( \frac{1}{n}\sum_{i = 1}^n y_i \right) \approx 9157.836.$$

In [3]:
# Расчет через элементарные функции
cov_elem = np.mean(x * y) - np.mean(x) * np.mean(y)
# Проверка через numpy
cov_np = np.cov(x, y, ddof=0)

print(f'Матрица ковариации numpy:\n{cov_np}\n')
print(f'Ковариация:\ncov_elem = {cov_elem}\ncov_np = {cov_np[0, 1]}')

Матрица ковариации numpy:
[[ 3494.64  9157.84]
 [ 9157.84 30468.89]]

Ковариация:
cov_elem = 9157.8359375
cov_np = 9157.84


**Ответ (задание 1.1):** $\text{cov}_{XY} \approx 9157.836$.

**Задание 1.2** <a class='anchor' id='corr_1_2'>
    
*Найдите коэффициент корреляции Пирсона с помощью ковариации и среднеквадратичных отклонений двух признаков, а затем с использованием функций из библиотек numpy и pandas.*

Коэффициент корреляции Пирсона вычисляется по следующей формуле:

$$r_{XY} = \frac{\text{cov}_{XY}}{\sigma_X \cdot \sigma_Y},$$

где $\sigma$ - среднеквадратичное отклонение.

Вычисляем смещенную ковариацию, поэтому СКО также будем вычислять с использованием формулы для смещенной оценки:

$$\sigma_X = \sqrt{\frac{\sum_{i = 1}^n (x_i - \overline{X})^2}{n}},$$

для $\sigma_Y$ используется аналогичная формула.

Таким образом, получаем значение коэффициента корреляции Пирсона:

$$r_{XY} \approx 0.887.$$

In [4]:
# Расчет через элементарные функции
r_elem = cov_elem / (np.std(x, ddof=0) * np.std(y, ddof=0))
# Проверка через numpy
r_np = np.corrcoef(x, y)

print(f'Матрица корреляции Пирсона numpy:\n{r_np}\n')
print(f'Коэффициенты корреляции:\nr_elem = {r_elem}\nr_np = {r_np[0, 1]}')

Матрица корреляции Пирсона numpy:
[[1.         0.88749009]
 [0.88749009 1.        ]]

Коэффициенты корреляции:
r_elem = 0.8874895572662354
r_np = 0.8874900920739162


**Ответ (задание 1.2):** $r_{XY} \approx 0.887$.

### Задание 2 <a class='anchor' id='corr_2'>
    
Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:
    
131, 125, 115, 122, 131, 115, 107, 99, 125, 111.
    
Известно, что в генеральной совокупности IQ распределен нормально.
    
*Найдите доверительный интервал для математического ожидания с надежностью 0.95.*

По условию задачи СКО генеральной совокупности $\sigma$ неизвестно, значит доверительный интервал вычисляется по формуле:

$$\overline{X} \pm t_{\alpha/2} \cdot \frac{\sigma_н}{\sqrt{n}},$$

где $t_{\alpha/2}$ определяется по таблице Стьюдента для $95\%$ доверительного интервала.

Вычислим среднее по выборке:

$$\overline{X} = \frac{1}{n}\sum_{i = 1}^n x_i \approx 118.099.$$

Вычислим несмещенное стандартной отклонение, рассчитанное по выборке:

$$\sigma_н = \sqrt{\frac{\sum_{i = 1}^n (x_i - \overline{X})^2}{n - 1}} \approx 10.546.$$

Число степеней свободы:

$$\text{df} = n - 1 = 9.$$

Так как $\alpha = 5\%$, то для $\frac{\alpha}{2} = 2.5\%$ при $\text{df} = 9$ по таблице Стьюдента получаем:

$$t_{\alpha/2} = 2.262.$$

Подставляя в формулу, получаем выражение для интервала:

$$118.099 \pm \left( 2.262 \cdot \frac{10.546}{\sqrt{10}} \right).$$

После подсчета получаем границы 95%-доверительного интервала:

$$[110.557; 125.643].$$

In [5]:
# Расчет статистических параметров выборки
arr = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111], dtype=np.float32)

mean = np.mean(arr)
std_ddof = np.std(arr, ddof=1)
df = arr.size - 1

print(f'mean = {mean}\nstd_ddof = {std_ddof}\ndf = {df}')

mean = 118.0999984741211
std_ddof = 10.54566764831543
df = 9


In [6]:
# Расчет границ доверительного интервала
v = 2.262 * std_ddof / np.sqrt(10)
a = mean - v
b = mean + v
print(f'[{a}; {b}]')

[110.55660640550073; 125.64339054274146]


In [7]:
# Проверка найденного значения z через scipy
z = t.ppf(0.975, df)
print(f'z = {z}')

z = 2.2621571627409915


**Ответ (задание 2):** $[110.557; 125.643]$ - 95%-доверительный интервал.

### Задание 3 <a class='anchor' id='corr_3'>
    
Известно, что рост футболистов в сборной распределен нормально с дисперсией генеральной совокупности, равной 25 кв.см. Объем выборки равен 27, среднее выборочное составляет 174.2. 
    
*Найдите доверительный интервал для математического ожидания с надежностью 0.95.*

По условию задачи СКО генеральной совокупности $\sigma$ известно, значит доверительный интервал вычисляется по формуле:

$$\overline{X} \pm Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}},$$

где $Z_{\alpha/2}$ определяется по таблице $Z$-значений для $95\%$ доверительного интервала.

Так как $\alpha = 5\%$, то для $Z_{\alpha/2}$ соответствует значение $97.5\%$, тогда по таблице получаем:

$$Z_{\alpha/2} = 1.96.$$

Известно, что $\overline{X} = 174.2$, $n = 27$, $D = 25$, и СКО:

$$\sigma = \sqrt{D} = 5,$$

тогда, подставляя в формулу, получаем выражение для интервала:

$$174.2 \pm \left( 1.96 \cdot \frac{5}{\sqrt{27}} \right).$$

После подсчета получаем границы 95%-доверительного интервала:

$$[172.314; 176.086].$$

In [8]:
# Расчет границ доверительного интервала
mean = 174.2
v = 1.96 * 5 / np.sqrt(27)
a = mean - v 
b = mean + v
print(f'[{a}; {b}]')

[172.31398912064722; 176.08601087935276]


In [9]:
# Проверка найденного значения z через scipy
z = norm.ppf(0.975)
print(f'z = {z}')

z = 1.959963984540054


**Ответ (задание 3):** $[172.314; 176.086]$ - 95%-доверительный интервал.