# Практическое задание №6 по теме "Взаимосвязь величин. Показатели корреляции. Корреляционный анализ. Проверка на нормальность".

In [1]:
import numpy as np
import pandas as pd
from scipy import stats

## Задание 1

Даны значения величины заработной платы заемщиков банка (`zp`) и значения их поведенческого кредитного скоринга (`ks`):
```
zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110],
ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]
```
Найдите ковариацию этих двух величин с помощью элементарных действий, а затем с помощью функции cov из numpy. Полученные значения должны быть равны.

Найдите коэффициент корреляции Пирсона с помощью ковариации и среднеквадратичных отклонений двух признаков, а затем с использованием функций из библиотек numpy и pandas.

___Решение___

In [2]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

1. Находим ковариацию. Несмещённую оценку ковариации можно посчитать следующим образом:
$$\sigma_{XY} = \dfrac{1}{n - 1} \displaystyle\sum_{i = 1}^n \left( x_i - \overline{X} \right) \cdot \left( y_i - \overline{Y} \right)$$

In [3]:
n = zp.shape[0] if zp.shape[0] == ks.shape[0] else 0

In [4]:
zp_mean = zp.sum() / n
ks_mean = ks.sum() / n

cov = ((zp-zp_mean)*(ks-ks_mean)).sum()/(n-1)
cov

10175.37777777778

С помощью cov из numpy:

In [5]:
np.cov(zp, ks, ddof=1)

array([[ 3882.93333333, 10175.37777778],
       [10175.37777778, 33854.32222222]])

In [6]:
print(f"Ковариация: {cov}")

Ковариация: 10175.37777777778


2. Найдем коэффициент корреляции Пирсона, который можно посчитать следующим образом:

$$r_{XY} = \dfrac{\sigma_{XY}}{\sigma_X \cdot \sigma_Y},$$

где $\sigma_X$, $\sigma_Y$ — среднее квадратическое отклонение.

In [7]:
zp_std = (((zp - zp_mean)**2).sum()/(n-1))**0.5
ks_std = (((ks - ks_mean)**2).sum()/(n-1))**0.5

zp_std, ks_std

(62.31318747531162, 183.99544076477068)

In [8]:
corr = cov / (zp_std * ks_std)
print('Коэффициент корреляции Пирсона без использования библиотек numpy, pandas')
corr

Коэффициент корреляции Пирсона без использования библиотек numpy, pandas


0.8874900920739164

In [9]:
print('Коэффициент корреляции Пирсона через библиотеку numpy')
np.corrcoef(zp, ks)

Коэффициент корреляции Пирсона через библиотеку numpy


array([[1.        , 0.88749009],
       [0.88749009, 1.        ]])

In [10]:
print('Коэффициент корреляции Пирсона через библиотеку pandas')
df = pd.DataFrame({'zp': zp, 'ks': ks})
df.corr()

Коэффициент корреляции Пирсона через библиотеку pandas


Unnamed: 0,zp,ks
zp,1.0,0.88749
ks,0.88749,1.0


In [11]:
print(f"Коэффициент корреляции Пирсона: {corr}")

Коэффициент корреляции Пирсона: 0.8874900920739164


___Ответ:___  $\sigma_{XY} = 10175.37777778$, $r_{XY} = 0.88749009$

---

## Задание 2

Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:
```
131, 125, 115, 122, 131, 115, 107, 99, 125, 111
```
Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

___Решение___

Генеральная совокупность распределена нормально, дисперсия неизвестна, оценка математического ожидания. На основании этих данных используем __t-статистику__, которая имеет распределение Стьюдента:
$$t = \dfrac{\overline{X} - \mu}{\sigma_X / \sqrt{n}}$$

Требуется построить доверительный интервал для математического ожидания $\mu$ с доверительной вероятностью $p=0.95$

$$P \left( \overline{X} + t_{\alpha / 2, \: n - 1} \cdot \dfrac{\sigma_X}{\sqrt{n}} \leq \mu \leq \overline{X} + t_{1 - \alpha / 2, \: n - 1} \cdot \dfrac{\sigma_X}{\sqrt{n}} \right) = p$$

In [12]:
IQ = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])
p = 0.95

Расчитаем $\overline X$, $\sigma_{X}$, $n$, $alpha$

In [13]:
n = IQ.shape[0]
mean = IQ.mean()
std = IQ.std(ddof=1)
alpha = 1 - p

n, mean, std, alpha

(10, 118.1, 10.54566788359614, 0.050000000000000044)

Найдем с помощью `scipy` нужные квантили:

In [14]:
t1 = stats.t.ppf(alpha/2, df=n-1)
t2 = stats.t.ppf(1-alpha/2, df=n-1)

t1, t2

(-2.2621571627409915, 2.2621571627409915)

Итак, доверительный интервал:

In [15]:
CI = (mean + t1 * std / np.sqrt(n), mean + t2 * std / np.sqrt(n))
CI

(110.55608365158724, 125.64391634841274)

___Ответ:___ (110.55608365158724, 125.64391634841274)

---

## Задание 3

Известно, что рост футболистов в сборной распределен нормально с дисперсией генеральной совокупности, равной 25 кв.см. Объем выборки равен 27, среднее выборочное составляет 174.2. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

___Решение___

Генеральная совокупность распределена нормально, дисперсия известна, оценка математического ожидания. Используем __Z-статистику__, которая имеет стандартное нормальное распределение:
$$Z = \dfrac{\overline{X} - \mu}{\sigma / \sqrt{n}}$$

Требуется построить доверительный интервал для математического ожидания $\mu$ с доверительной вероятностью $p=0.95$

$$P \left( \overline{X} + t_{\alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \leq \mu \leq \overline{X} + t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \right) = p$$

$$\overline{X} = 174.2,\,\,\, n = 27,\,\,\, \sigma^{2}=25,\,\,\, \alpha = 1-p=0.05 $$

In [16]:
mean = 174.2
var = 25
n = 27
alpha = 0.05
std = np.sqrt(var)

In [17]:
t1 = stats.norm.ppf(alpha/2)
t2 = stats.norm.ppf(1-alpha/2)

t1, t2

(-1.9599639845400545, 1.959963984540054)

Итак, доверительный интервал:

In [18]:
CI = (mean + t1 * std / np.sqrt(n), mean + t2 * std / np.sqrt(n))
CI

(172.3140237765397, 176.08597622346028)

___Ответ:___ (172.3140237765397, 176.08597622346028)

---

## Задание 4

Выберите тему для проектной работы по курсу "Теории вероятностей и математической статистики" и напишите ее в комментарии к Практическому заданию.

Тут непонятно, поскольку ни о какой проектной работе в видеоуроках не сказано. Это видимо для вебинарного курса, и поэтому нашего интерактивного курса не касается.

---