### Урок 6. Взаимосвязь величин. Параметрические и непараметрические показатели корреляции. Корреляционный анализ

__Задача 1__

Даны значения величины заработной платы заемщиков банка (salary) и значения их поведенческого кредитного скоринга (scoring):

salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

1. Найдите ковариацию этих двух величин: сначала без использования специальных функций, а затем с помощью функции numpy.cov. Полученные значения должны быть равны.
2. Найдите коэффициент корреляции Пирсона: с помощью ковариации и средних квадратических отклонений двух признаков, а затем с помощью специальных функций из библиотек numpy и pandas.

In [1]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from scipy import stats

In [2]:
salary = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
scoring = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

__Формула ковариации случайных величин $X$ и $Y$:__

$$\operatorname{cov}(X, Y) = M\left( (X - M(X)) (Y - M(Y)) \right).$$

__коэффициент корреляции Пирсона__:

$$r_{XY} = \dfrac{\operatorname{cov}(X, Y)}{\sigma_X \cdot \sigma_Y}.$$

In [3]:
def cov_1(X, Y):
    n = X.shape[0]
    return np.sum((X - np.mean(X)) * (Y - np.mean(Y))).mean() / (n - 1)

def correl_1(X, Y):
    return cov_1(X, Y) / (np.std(X, ddof=1) * np.std(Y, ddof=1))

print(f'Подсчитанная ковариация:               {cov_1(salary, scoring)}')
print(f'Ковариация с использованием numpy.cov: {np.cov(salary, scoring)[0,1]}')

Подсчитанная ковариация:               10175.37777777778
Ковариация с использованием numpy.cov: 10175.377777777778


In [4]:
print(f'Подсчитанный коэффициент корреляции Пирсона:                 {correl_1(salary, scoring)}')
print(f'коэффициент корреляции Пирсона с использованием np.corrcoef: {np.corrcoef(salary, scoring)[0,1]}')

Подсчитанный коэффициент корреляции Пирсона:                 0.8874900920739164
коэффициент корреляции Пирсона с использованием np.corrcoef: 0.8874900920739163


__Задача 2__

Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:

131, 125, 115, 122, 131, 115, 107, 99, 125, 111

Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

In [5]:
IQ = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])

In [6]:
s = np.std(IQ)
m = np.mean(IQ)
n = IQ.shape[0]
alpha = 0.05
# используем t-распределение Стьюдента, т.к. не известна дисперсия
t = stats.t.ppf(1-alpha/2,n-1)
print ('Доверительный интервал:', (m - t * s / np.sqrt(n), m + t *s / np.sqrt(n)))

Доверительный интервал: (110.9432125583706, 125.25678744162938)


__Задача 3__

Известно, что рост футболистов в сборной распределен нормально с известной дисперсией 25. На выборке объёма 27 выборочное среднее составило 174.2. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

In [7]:
d = 25
m = 174.2
n = 27
sigma = np.sqrt(d/n)
# здесь уже применим правило двух сигм , т.к. известна дисперсия
print ('Доверительный интервал:', (m - 2 * sigma, m + 2 * sigma))

Доверительный интервал: (172.27549910270125, 176.12450089729873)


__Задача 4__

Выберите тему для проектной работы по курсу Теории вероятностей и математической статистики и напишите ее в комментарии к Практическому заданию.