## Практическая работа №6 Теория вероятностей и математическая статистика

#### Задание №1
Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks):
zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110],
ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832].
Найдите ковариацию этих двух величин с помощью элементарных действий, а затем с помощью функции cov из numpy
Полученные значения должны быть равны.
Найдите коэффициент корреляции Пирсона с помощью ковариации и среднеквадратичных отклонений двух признаков,
а затем с использованием функций из библиотек numpy и pandas.

Ковариация вычисляется по формуле:
$\displaystyle cov_{XY} = M(XY) - M(X)\cdot M(Y)$,
где M - математическое ожидание

In [2]:
import numpy as np
import pandas as pd

In [3]:
def list_avg(X:np.array) -> float:
    """
    Функция расчёта мат.ожидания
    :param X: Исходный массив
    :return: Мат ожидание
    """
    return sum(X)/len(X)

def cov_xy(X:np.array, Y:np.array) -> float:
    """
    Функция для расчёта ковариации
    :param X:
    :param Y:
    :return: Коэфициент ковариации
    """
    return list_avg(X*Y) - list_avg(X)*list_avg(Y)

In [5]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [6]:
cov_xy(zp, ks)

9157.839999999997

In [10]:
# Функция расчёта коэфициента ковариации библиотеки numpy
np.cov(zp,ks, ddof=0)[1][0]

9157.84

In [13]:
assert round(cov_xy(zp,ks), 2) == np.cov(zp,ks, ddof=0)[1][0]

Коэффициент корреляции Пирсона расчитаем по формуле:
$r_{XY} = \frac{\displaystyle cov_{XY}}{\sigma_X \cdot \sigma_Y}$

In [39]:
def sigma(X:np.array) -> float:
    """
    Функция расчёта среднеквадратичного отклонения
    :param X: Исходный массив
    :return: Средне квадратичное отклонение
    """
    return (sum((X-list_avg(X))**2)/len(X))**0.5

def pirson_corr(X:np.array, Y:np.array) -> float:
    """
    Функция расчёта коэффициента корреляции Пирсона
    :param X:
    :param Y:
    :return: коэффициент корреляции
    """
    return cov_xy(X,Y)/(sigma(X)*sigma(Y))

In [43]:
manual_corr = round(pirson_corr(zp, ks), 5)
manual_corr

0.88749

In [50]:
# Расчёт корреляции с помощью библиотеки numpy
np_corr = round(np.corrcoef(zp,ks)[0][1], 5)
np_corr

0.88749

In [59]:
# Расчёт корреляции с помощью библиотеки pandas
df = pd.DataFrame({'zp':zp, 'ks':ks})
pd_corr = round(df.corr()['ks']['zp'], 5)
pd_corr

0.88749

In [60]:
assert manual_corr == np_corr
assert manual_corr == pd_corr

#### Задание №2
Измерены значения IQ выборки студентов,
обучающихся в местных технических вузах:
131, 125, 115, 122, 131, 115, 107, 99, 125, 111.
Известно, что в генеральной совокупности IQ распределен нормально.
Найдите доверительный интервал для математического ожидания с надежностью 0.95.

если генеральное стандартное отнклонение неизвестно, то интервал можно построить по формуле
$T_{1,2} = \bar X \pm \frac{t_{\gamma} \cdot \sigma}{\sqrt{n}}$, где
$\bar X$ - среднее по выборке<br>
$t_{\gamma}$ - коэфициент доверия расчитанный с помощью распределения Стьюдента<br>
$\sigma$ - несмещенная оценка генерального стандартного отклонения

Для начала найдём выборочные характеристики, среднее и диссперсию
$$\bar X = \frac{\sum_{i=1}^{n} x_i}{n} = \frac{131 + 125 + 115 + 122 + 131 + 115 + 107 + 99 + 125 + 111}{10} = 118.1$$

$$D(X) = \frac{\sum_{i=1}^{n} (x_i - \bar X)^2}{n}$$
$$\sum_{i=1}^{n} (x_i - \bar X)^2 = (131-118.1)^2 + (125-118.1)^2 + (115-118.1)^2 + (122-118.1)^2 + (131-118.1)^2 + (115-118.1)^2 + (107-118.1)^2 + (99-118.1)^2 + (125-118.1)^2 + (111-118.1)^2 = 1000.9$$
$$D(X) = \frac{1000.9}{10} = 100.09$$

$$\sigma = \sqrt{\frac{n}{n-1}\cdot D(X)} = \sqrt{\frac{10}{9}\cdot 100.09} = 10.55$$

согласно таблице распределения Стьюдента для доверительной вероятности $\gamma = 0.95$ и объёму выборки $n = 10$ соответствует коэффициент доверия:
$t_{\gamma} = 2.26$


Теперь можно найти доверительный интервал
$$T_{1,2} = \bar X \pm \frac{t_{\gamma}\cdot \sigma}{\sqrt{n}} = 118.1 \pm \frac{2.26 \cdot 10.55 }{\sqrt{10}} = 118.1 \pm 7.54$$
$$T_{1} = 118.1 - 7.54 = 110.56$$
$$T_{1} = 118.1 + 7.54 = 125.64$$

**Ответ: (110.56; 125.64)**

#### Задание №3
Известно, что рост футболистов в сборной распределен нормально
с дисперсией генеральной совокупности, равной 25 кв.см. Объем выборки равен 27,
среднее выборочное составляет 174.2. Найдите доверительный интервал для математического
ожидания с надежностью 0.95.

т.к. указана дисперсиягенеральной совокупности $\sigma^2 = 25$, можно воспользоваться формулой
$T_{1,2} = \bar X \pm \frac{t_{\gamma} \cdot \sigma}{\sqrt{n}}$, где<br>
$\bar X = M$ - среднее значение<br>
$n$ - объём выборки<br>
$\sigma$ - средне квадратичное отклонение<br>
$t_{\gamma}$ - коэфициент доверия $2\Phi(t_{\gamma}) = \gamma => \Phi(t_{\gamma}) = \frac{\gamma}{2}$<br>
$\Phi(t_{\gamma})$ - функция Лапласа<br>
$\Phi(t_{\gamma}) = \frac{0.95}{2} => \Phi(t_{\gamma}) = 0.475$, заглянув в таблицу Лапласа выясним что аргумент функции $t_{\gamma} = 1.96$


$$T_{1,2} = 174.2 \pm \frac{1.96 \cdot \sqrt{25}}{\sqrt{27}} = 174.2 \pm 1.886$$
$$T_1 = 174.2 - 1.886 = 172.314$$
$$T_2 = 174.2 + 1.886 = 176.086$$

**Ответ:**<br>
доверительный интервал для оценки математического ожидания a с надежностью 0.95 равен **(172.314; 176.086)**

#### Задание №4

Выберите тему для проектной работы по курсу Теории вероятностей и математической статистики
и напишите ее в комментарии к Практическому заданию.

Проектная работа: **Логистическая регрессия**