# Курс «Теория вероятностей и математическая статистика»

## Урок 6. Взаимосвязь величин. Параметрические и непараметрические показатели корреляции. Корреляционный анализ.

**Задание 1**

Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks):

zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110],

ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832].

Найдите ковариацию этих двух величин с помощью элементарных действий, а затем с помощью функции cov из numpy

Полученные значения должны быть равны.

Найдите коэффициент корреляции Пирсона с помощью ковариации и среднеквадратичных отклонений двух признаков,
а затем с использованием функций из библиотек numpy и pandas.


In [1]:
import numpy as np
import math
from scipy import stats

In [2]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
zp

array([ 35,  45, 190, 200,  40,  70,  54, 150, 120, 110])

In [3]:
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])
ks

array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

1. Вычислим ковариацию по формуле:

$$cov_{XY} = M(XY) - M(X)M(Y)=\overline{X \cdot Y} - \overline{X} \cdot \overline{Y}$$


In [4]:
cov = np.mean(zp*ks) - np.mean(zp)*np.mean(ks)
cov

9157.839999999997

2. Найдем ковариацию с помощью функции cov из numpy:

In [5]:
np.cov(zp, ks, ddof=0)  # несмещенная ковариация

array([[ 3494.64,  9157.84],
       [ 9157.84, 30468.89]])

3. Найдем коэффициент корреляции Пирсона с помощью ковариации и среднеквадратичных отклонений двух признаков:

In [6]:
np.std(zp, ddof=1)  # несмещенное стандартное отклонение признака zp

62.31318747531162

In [7]:
np.std(ks, ddof=1)  # несмещенное стандартное отклонение признака ks

183.99544076477068

In [8]:
corrcoef = np.cov(zp, ks, ddof=1) / (np.std(zp, ddof=1) * np.std(ks, ddof=1))
corrcoef

array([[0.33866702, 0.88749009],
       [0.88749009, 2.95275283]])

Найдем коэффициент корреляции Пирсона с использованием функций из библиотек numpy и pandas:

In [9]:
np.corrcoef(zp, ks)

array([[1.        , 0.88749009],
       [0.88749009, 1.        ]])

**Задание 2**

Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:

131, 125, 115, 122, 131, 115, 107, 99, 125, 111.

Известно, что в генеральной совокупности IQ распределен нормально.

Найдите доверительный интервал для математического ожидания с надежностью 0.95.

In [10]:
iq = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])
iq

array([131, 125, 115, 122, 131, 115, 107,  99, 125, 111])

In [11]:
# размер выборки
n = iq.size
n

10

In [12]:
# среднее арифметическое выборки
mean_iq = np.mean(iq)
mean_iq

118.1

In [16]:
# несмещенная дисперсия выборки
s2 = np.var(iq, ddof=1)
s2

111.21111111111111

Уровень значимости a=0.05 (двусторонняя критическая область).

n-1 = 10 - 1 = 9 - число степеней свободы

Найдем критическое значение t по таблице критических точек t-критерия Стьюдента:

t(0.025, 9) = 2.262

In [33]:
r = 2.262 * math.sqrt(s2/n)
r

7.543392236918348

In [31]:
min_iq = mean_iq - r
min_iq

110.55660776308164

In [32]:
max_iq = mean_iq + r
max_iq

125.64339223691834

Ответ: (110.557 ; 125.643)

**Задание 3**

Известно, что рост футболистов в сборной распределен нормально с дисперсией генеральной совокупности, равной 25 кв.см. 
Объем выборки равен 27, среднее выборочное составляет 174.2. 

Найдите доверительный интервал для математического ожидания с надежностью 0.95.

In [36]:
s2_soccer = 25

In [37]:
n_soccer = 27

In [38]:
mean_soccer = 174.2

Найдем значение z по таблице значений функции Лапласа из равенства:

Ф(z) = 0.95 / 2 = 0.475

z = 1.96

In [45]:
stats.norm.cdf(1.96) - 0.5

0.4750021048517795

In [39]:
a = 1.96 * math.sqrt(s2_soccer/n_soccer)
a

1.8860108793527774

In [40]:
min_soccer = mean_soccer - a
min_soccer

172.31398912064722

In [41]:
max_soccer = mean_soccer + a
max_soccer

176.08601087935276

Ответ: (172.314; 176.086)