## Урок 6
### Взаимосвязь величин. Параметрические и непараметрические показатели корреляции.
### Корреляционный анализ.

In [1]:
import numpy as np
import pandas as pd
from scipy import stats

#### Задача 1
Даны значения величины заработной платы заемщиков банка (`salary`) и значения их поведенческого кредитного скоринга (`scoring`):
```
salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]
```
1. Найдите ковариацию этих двух величин: сначала без использования специальных функций, а затем с помощью функции `numpy.cov`. Полученные значения должны быть равны.
2. Найдите коэффициент корреляции Пирсона: с помощью ковариации и средних квадратических отклонений двух признаков, а затем с помощью специальных функций из библиотек `numpy` и `pandas`.

##### Решение

In [2]:
salary = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
scoring = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [3]:
X = salary
Y = scoring
MX = X.mean()
MY = Y.mean()

Biased covariance:
$$\operatorname{cov}(X, Y) = M\left( (X - M(X)) (Y - M(Y)) \right).$$

In [4]:
# Calculate covariance using formula
cov_biased = ((X - MX) * (Y - MY)).mean()
cov_biased

9157.84

Unbiased covariance:
$$\sigma_{xy} = \dfrac{1}{n - 1} \displaystyle\sum_{i = 1}^n (x_i - \overline{x}) \cdot (y_i - \overline{y}).$$

In [5]:
# Calculate unbiased covariance using formula
cov = ((X - MX) * (Y - MY)).sum() / (X.shape[0] - 1)
cov

10175.37777777778

In [6]:
# Get covariance matrix using built-in function
cov_matrix = np.cov(X, Y)
cov_matrix

array([[ 3882.93333333, 10175.37777778],
       [10175.37777778, 33854.32222222]])

In [7]:
# Get unbiased covariance value from covariance matrix
cov = cov_matrix[0, 1]
cov

10175.377777777776

Pearson correlation coefficient:
$$r_{XY} = \dfrac{\operatorname{cov}(X, Y)}{\sigma_X \cdot \sigma_Y}.$$

In [8]:
# Calculate Pearson correlation coefficient using formula 
# For unbiased standard deviation, using std(ddof=1)
corr = cov / (X.std(ddof=1) * Y.std(ddof=1))
corr

0.887490092073916

In [9]:
# Get correlation matrix using built-in function
corr_matrix = np.corrcoef(X, Y)
corr_matrix

array([[1.        , 0.88749009],
       [0.88749009, 1.        ]])

In [10]:
# Get unbiased Pearson correlation coefficient from correlation matrix
corr = corr_matrix[0, 1]
corr

0.8874900920739162

#### Задача 2
Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:
```
131, 125, 115, 122, 131, 115, 107, 99, 125, 111
```
Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

##### Решение

In [11]:
iq_students = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])
P = 0.95

In [12]:
# Find number of observations, Mean, Standard Deviation
n = iq_students.shape[0]
mean = iq_students.mean()
std = iq_students.std(ddof=1)

n, mean, std

(10, 118.1, 10.54566788359614)

In [13]:
# Calculate significance level
alpha = 1 - P
alpha

0.050000000000000044

In [14]:
# Calculate quantile for t-distribution (Student's coefficient)
# Student's coefficient is used when variance is unknown
t = stats.t.ppf(1 - alpha / 2, df = n - 1)
t

2.2621571627409915

Confidence Interval (variance is unknown):
$$
P \left( 
    \overline{X} - t_{1 - \alpha/2, \: n - 1} \cdot \dfrac{\sigma_X}{\sqrt{n}} 
    \leq a \leq
    \overline{X} + t_{1 - \alpha/2, \: n - 1} \cdot \dfrac{\sigma_X}{\sqrt{n}} 
\right) = p.
$$

In [15]:
# Calculate confidence interval: (ci_from, ci_to)
ci_from = mean - t * (std / np.sqrt(n))
ci_to = mean + t * (std / np.sqrt(n))

(ci_from, ci_to)

(110.55608365158724, 125.64391634841274)

#### Задача 3
Известно, что рост футболистов в сборной распределён нормально с известной дисперсией 25. На выборке объёма 27 выборочное среднее составило 174.2. Найдите доверительный интервал для математического ожидания с надёжностью 0.95.

##### Решение

In [16]:
disp = 25 # variance
n = 27 # number of observations
mean = 174.2
P = 0.95

In [17]:
# Calculate Standard Deviation
sigma = np.sqrt(disp)
sigma

5.0

In [18]:
# Calculate significance level
alpha = 1 - P
alpha

0.050000000000000044

Confidence Interval (variance is known):
$$
P \left(
    \overline{X} - t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}}
    \leq a \leq 
    \overline{X} + t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}}
\right) = p.
$$

In [19]:
# Calculate quantile for standard distribution
# Used when variance is known
t = stats.norm.ppf(1 - alpha / 2)
t

1.959963984540054

In [20]:
# Calculate confidence interval: (ci_from, ci_to)
ci_from = mean - t * (std / np.sqrt(n))
ci_to = mean + t * (std / np.sqrt(n))

(ci_from, ci_to)

(170.22222422220577, 178.1777757777942)