# Теория вероятностей и математическая статистика (семинары)
## Урок 8. Корреляционный анализ

In [1]:
import numpy as np
import scipy.stats as stats
from statsmodels.stats.weightstats import _tconfint_generic as t_stat
from statsmodels.stats.weightstats import _zconfint_generic as z_stat

## Задача 1
Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks):

zp = \[35, 45, 190, 200, 40, 70, 54, 150, 120, 110\],

ks = \[401, 574, 874, 919, 459, 739, 653, 902, 746, 832\].

Найдите ковариацию этих двух величин с помощью элементарных действий, а затем с помощью функции cov из numpy
Полученные значения должны быть равны.

Найдите коэффициент корреляции Пирсона с помощью ковариации и среднеквадратичных отклонений двух признаков,
а затем с использованием функций из библиотек numpy и pandas.


### Решение
Найдем ковариацию двух величин по формулам:

In [2]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array( [401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [3]:
x_mean = zp.mean()
y_mean = ks.mean()
xy_mean = (zp * ks).mean()

In [4]:
cov_ks = xy_mean - x_mean * y_mean
cov_ks

9157.839999999997

Теперь найдем ковариацию двух величин с помощью стандартной функции:

In [5]:
np.cov(zp, ks, ddof=0)

array([[ 3494.64,  9157.84],
       [ 9157.84, 30468.89]])

In [6]:
cov_ks2 = ((zp - zp.mean()) * (ks - ks.mean())).mean()
cov_ks2

9157.84

Найдем коэффициент корреляции Пирсона с помощью ковариации и среднеквадратичных отклонений двух признаков

In [7]:
x_std = zp.std()
y_std = ks.std()

In [8]:
corr_ks = cov_ks / (x_std * y_std)
corr_ks

0.8874900920739158

Теперь найдем коэффициент корреляции Пирсона с помощью функции библиотеки numpy

In [9]:
np.corrcoef(zp, ks)

array([[1.        , 0.88749009],
       [0.88749009, 1.        ]])

### Ответ:
Ковариация двух величин равна 9157.84

Коэффициент корреляции Пирсона двух вечличин равен 0.88749009

# 
## Задача 2
Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:

131, 125, 115, 122, 131, 115, 107, 99, 125, 111.

Известно, что в генеральной совокупности IQ распределен нормально.

Найдите доверительный интервал для математического ожидания с надежностью 0.95.


### Решение

In [10]:
x = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])
x_mean = x.mean()
std_x = x.std(ddof=1)
x_mean_std = std_x / (np.sqrt(len(x)))

In [11]:
t_stat(x_mean, x_mean_std, len(x) - 1, 0.05, 'two-sided')

(110.55608365158724, 125.64391634841274)

### Ответ:
Доверительный интервал располагается в диапазоне (110.56, 125.64)

# 
## Задача 3
Известно, что рост футболистов в сборной распределен нормально с дисперсией генеральной совокупности, равной 25 кв.см. Объем выборки равен 27, среднее выборочное составляет 174.2. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

### Решение

In [12]:
n = 27
x_mean = 174.2
x_std = np.sqrt(25)
x_mean_std = x_std / np.sqrt(n)

In [13]:
z_stat(x_mean, x_mean_std, 0.05, 'two-sided')

(172.3140237765397, 176.08597622346028)

### Ответ:
Доверительный интервал располагается в диапазоне (172.31, 176.09)