#### Задача 1

Даны значения величины заработной платы заемщиков банка (salary) и значения их поведенческого кредитного скоринга (scoring):

salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

Используя только встроенные питоновские функции и структуры данных (т.е. без библиотек numpy, pandas и др.) найдите:
1. ковариацию этих двух величин,
2. коэффициент корреляции Пирсона.

Можно затем посчитать те же значения с использованием библиотек, чтобы проверить себя.


Задача 4

Выберите тему для проектной работы по курсу Теории вероятностей и математической статистики и напишите ее в комментарии к Практическому заданию.

In [28]:
import numpy as np
import pandas as pd
from math import sqrt
from scipy import stats

In [12]:
salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

In [13]:
def Average(lst):
"""Функция mean - среднее арифметическое"""
    return sum(lst)/len(lst)

In [14]:
MSal = Average(salary)
MScor = Average(scoring)

Вычисляем ковариацию по формуле для случайных величин $X$ и $Y$:
$$\operatorname{cov}(X, Y) = M\left( (X - M(X)) (Y - M(Y)) \right).$$

Несмещённая оценка:
$$\sigma_{XY} = \dfrac{1}{n - 1} \displaystyle\sum_{i = 1}^n (x_i - \overline{X}) \cdot (y_i - \overline{Y})$$

In [35]:
lst = list(map(lambda x, y: (x - MSal)*(y - MScor), salary, scoring))

In [36]:
print(len(salary)==len(scoring))

True


In [38]:
cov = sum(lst) / (len(salary) - 1)
cov

10175.377777777778

In [9]:
np.cov(salary, scoring, ddof=1) # Проверка с помощью встроенной функции

array([[ 3882.93333333, 10175.37777778],
       [10175.37777778, 33854.32222222]])

Вычисляем с помощью метода sqrt из модуля math среднее квадратическое отклонения зарплаты (sal_std) и поведенческого кридитного скоринга (scor_std).

In [42]:
sal_std = (sum((x-sum(salary)/len(salary))**2 for x in salary)/(len(salary)-1))**0.5
scor_std = (sum((x-sum(scoring)/len(scoring))**2 for x in scoring)/(len(scoring)-1))**0.5
sal_std, scor_std

(62.31318747531162, 183.99544076477068)

Вычисляем коэффициент корреляции Пирсона по формуле:
$$r_{XY} = \dfrac{\sigma_{XY}}{\sigma_X \cdot \sigma_Y}$$

Здесь $\sigma_X$, $\sigma_Y$ — среднее квадратическое отклонение

In [43]:
r = cov/(sal_std*scor_std)
r #Коэффициент корреляции

0.8874900920739162

In [59]:
#Проверяем с помощью встроенного метода numpy 
np.corrcoef(salary, scoring)

array([[1.        , 0.88749009],
       [0.88749009, 1.        ]])

#### Задача 2

Проведите тест на значимость коэффициента корреляции Пирсона, найденного в предыдущей задаче. Что для этого нужно знать:
* Нулевая гипотеза: реальный коэффициент корреляции равен 0. Альтернативная гипотеза двухсторонняя.
* Статистика: t = r * sqrt(n - 2) / sqrt(1 - r ** 2), где r - коэффициент корреляции Пирсона, посчитанный по выборке.
* В предположении верности нулевой гипотезы эта статистика имеет распределение Стьюдента с параметром df = n - 2.


In [45]:
alpha = 0.05 
n = len(salary)

In [46]:
t = r * sqrt(n - 2) / sqrt(1 - r ** 2)
t

5.447168150485575

In [48]:
#Квантили
t1 = stats.t.ppf(alpha / 2, df=n - 2)
t2 = stats.t.ppf(1 - alpha / 2, df=n - 2)

t1, t2

(-2.306004135033371, 2.3060041350333704)

Итак, критическая область:
$$\Omega_\alpha = (-\infty, -2.30) \cup (2.30, \infty)$$

In [69]:
print(t1 <= t <= t2) # Значение статистики попало в критическую область, значит нулевую гипотезу отвергаем.

False


#### Задача 3

Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:

131, 125, 115, 122, 131, 115, 107, 99, 125, 111

Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

Известно, что распределение нормальное и неизвестна дисперсия, то подходит t-статистика.
$$t = \dfrac{\overline{X} - \mu}{\sigma_X / \sqrt{n}},$$
где $\sigma_X$ — выборочное среднее квадратическое отклонение. Эта статистика имеет распределение Стьюдента, поэтому
$$P \left( t_{\alpha / 2, \: n - 1} \leq t \leq t_{1 - \alpha / 2, \: n - 1} \right) = p,$$
Доверительный интервал:
$$P \left( \overline{X} + t_{\alpha / 2, \: n - 1} \cdot \dfrac{\sigma_X}{\sqrt{n}} \leq \mu \leq \overline{X} + t_{1 - \alpha / 2, \: n - 1} \cdot \dfrac{\sigma_X}{\sqrt{n}} \right) = p$$

In [70]:
iq = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])
p = 0.95
mean = iq.mean()
alpha = 1-p
n = iq.shape[0]
std = iq.std(ddof=1)

mean, alpha, n, std

(118.1, 0.050000000000000044, 10, 10.54566788359614)

In [71]:
def statistic_t(samples: np.ndarray) -> float:
    return (samples.mean() - 200) / (samples.std(ddof=1) / np.sqrt(samples.shape[0]))

In [72]:
t = statistic_t(iq)
t

-24.558950957544557

In [73]:
#Квантили
t1 = stats.t.ppf(alpha / 2, df=n - 1)
t2 = stats.t.ppf(1 - alpha / 2, df=n - 1)

t1, t2

(-2.2621571627409915, 2.2621571627409915)

In [74]:
#Доверительный интервал
(mean + t1*std/np.sqrt(n), mean + t2*std/sqrt(n))

(110.55608365158724, 125.64391634841274)