### Урок 6. Взаимосвязь величин. Параметрические и непараметрические показатели корреляции. Корреляционный анализ.

#### Задача 1

Даны значения величины заработной платы заемщиков банка (salary) и значения их поведенческого кредитного скоринга (scoring):

salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110] \
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832] \
1. Найдите ковариацию этих двух величин: сначала без использования специальных функций, а затем с помощью функции numpy.cov. Полученные значения должны быть равны.
2. Найдите коэффициент корреляции Пирсона: с помощью ковариации и средних квадратических отклонений двух признаков, а затем с помощью специальных функций из библиотек numpy и pandas.

In [1]:
import numpy as np
import pandas as pd
from scipy import stats
from matplotlib import pyplot as plt

In [2]:
salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

In [5]:
df = pd.DataFrame(list(zip(salary, scoring)), columns =['salary', 'scoring'])
df

Unnamed: 0,salary,scoring
0,35,401
1,45,574
2,190,874
3,200,919
4,40,459
5,70,739
6,54,653
7,150,902
8,120,746
9,110,832


Формула ковариации случайных величин $X$ и $Y$:
$$\operatorname{cov}(X, Y) = M\left( (X - M(X)) (Y - M(Y)) \right).$$

Оценка ковариации бывает смещённой и несмещённой. Несмещённую оценку можно посчитать следующим образом:
$$\sigma_{XY} = \dfrac{1}{n - 1} \displaystyle\sum_{i = 1}^n (x_i - \overline{X}) \cdot (y_i - \overline{Y})$$

Здесь $X$, $Y$ — выборки размера $n$.

Без использования специальных функций:

In [6]:
X = df['salary']
Y = df['scoring']

MX = X.mean()
MY = Y.mean()

cov = ((X - MX) * (Y - MY)).sum() / (X.shape[0] - 1)
cov

10175.37777777778

C помощью функции numpy.cov:

In [7]:
np.cov(X, Y)

array([[ 3882.93333333, 10175.37777778],
       [10175.37777778, 33854.32222222]])

Коэффициент корреляции Пирсона с помощью ковариации и средних квадратических отклонений двух признаков:

In [9]:
corr = cov / (X.std() * Y.std(ddof = 1))
corr

0.8874900920739164

С помощью специальных функций из библиотек numpy и pandas:

In [10]:
df[['salary', 'scoring']].corr()

Unnamed: 0,salary,scoring
salary,1.0,0.88749
scoring,0.88749,1.0


In [12]:
np.corrcoef(X, Y)

array([[1.        , 0.88749009],
       [0.88749009, 1.        ]])

#### Задача 2

Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:

131, 125, 115, 122, 131, 115, 107, 99, 125, 111

Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

In [27]:
IQ = [131, 125, 115, 122, 131, 115, 107, 99, 125, 111]
n = len(IQ)
n

10

In [16]:
df = pd.DataFrame(IQ, columns =['IQ'])
df

Unnamed: 0,IQ
0,131
1,125
2,115
3,122
4,131
5,115
6,107
7,99
8,125
9,111


Найдем среднее по выборке (mean) и среднее квадратическое отклонение (std)

In [21]:
mean = df.mean()
mean

IQ    118.1
dtype: float64

In [23]:
std = df.std()
std

IQ    10.545668
dtype: float64

Поскольку дисперсия нам неизвестна,будем использовать  $t$ распределение и $T$ статистику:

In [29]:
p=0.95
alpha = 1 - p
T = stats.t.ppf(1 - alpha / 2, df=n - 1)
T

2.2621571627409915

Доверительный интервал:

In [31]:
(mean - T * std / np.sqrt(n), mean + T * std / np.sqrt(n))

(IQ    110.556084
 dtype: float64,
 IQ    125.643916
 dtype: float64)

#### Задача 3

Известно, что рост футболистов в сборной распределен нормально с известной дисперсией 25. На выборке объёма 27 выборочное среднее составило 174.2. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

Поскольку рассматриваемая случайная величина имеет нормальное распределение и известно среднее квадратичное отклонение (соответственно и дисперсия тоже известна), то доверительный интервал для математического ожидания можно построить используя статистику Z и квантили стандартного распределения.

In [32]:
mean = 174.2
n = 27
p = 0.95
D = 25
sigma = np.sqrt(D)
alpha = 1 - p

In [33]:
t1 = stats.norm.ppf(alpha / 2)
t2 = stats.norm.ppf(1 - alpha / 2)

t1, t2

(-1.959963984540054, 1.959963984540054)

И тогда доверительный интервал:

In [35]:
(mean + t1 * sigma / np.sqrt(n), mean + t2 * sigma / np.sqrt(n))

(172.3140237765397, 176.08597622346028)