## Задача 1

Даны значения величины заработной платы заемщиков банка (salary) и значения их поведенческого кредитного скоринга (scoring):

salary = \[35, 45, 190, 200, 40, 70, 54, 150, 120, 110\]<br>
scoring = \[401, 574, 874, 919, 459, 739, 653, 902, 746, 832\]<br>

Используя только встроенные питоновские функции и структуры данных (т.е. без библиотек numpy, pandas и др.) найдите:<br>
1. ковариацию этих двух величин,<br>
2. коэффициент корреляции Пирсона.<br>

Можно затем посчитать те же значения с использованием библиотек, чтобы проверить себя.

Формула ковариации случайных величин $X$ и $Y$:
$$\operatorname{cov}(X, Y) = M\left( (X - M(X)) (Y - M(Y)) \right).$$$$\sigma_{XY} = \dfrac{1}{n - 1} \displaystyle\sum_{i = 1}^n (x_i - \overline{X}) \cdot (y_i - \overline{Y})$$


In [1]:
salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]
n = len(salary)

def covariation(x,y):
    avarage_x = sum(x) / len(x)
    avarage_y = sum(y) / len(y)
    return sum([(x[i] - avarage_x) * (y[i] - avarage_y) for i in range(len(x)) ]) / (n - 1)
print("Ковариация наших признаков :", covariation(salary,scoring))


Ковариация наших признаков : 10175.377777777778


Кореляция Пирсона вычисляется по формуле:$$r_{XY} = \dfrac{\sigma_{XY}}{\sigma_X \cdot \sigma_Y}$$
среднеквадратичное отклонение вычисляем по формуле:$$\sigma_X=\sqrt{\frac{1}{1-n} \cdot \sum_{i = 1}^n (x_i - \overline{X})^2}$$

In [2]:
import math

def std_x(array):
    n = len(array)
    avarage = sum(array) /n
    s = sum([(x - avarage)**2 for x in array])
    return math.sqrt(s / ( n - 1))

def cor_pirson(x,y):
    return covariation(x, y) / (std_x(x) * std_x(y))


print("Кореляция Пирсона :", cor_pirson(salary, scoring))


Кореляция Пирсона : 0.8874900920739162


In [3]:
import numpy as np
print(np.cov(salary, scoring, ddof=1))
print(np.std(salary,ddof=1))
print(np.corrcoef(salary, scoring))

[[ 3882.93333333 10175.37777778]
 [10175.37777778 33854.32222222]]
62.31318747531162
[[1.         0.88749009]
 [0.88749009 1.        ]]


## Задача 2

Проведите тест на значимость коэффициента корреляции Пирсона, найденного в предыдущей задаче. Что для этого нужно знать:
* Нулевая гипотеза: реальный коэффициент корреляции равен 0. Альтернативная гипотеза двухсторонняя.
* Статистика: t = r * sqrt(n - 2) / sqrt(1 - r ** 2), где r - коэффициент корреляции Пирсона, посчитанный по выборке.
* В предположении верности нулевой гипотезы эта статистика имеет распределение Стьюдента с параметром df = n - 2.

In [4]:
from scipy import stats
r = 0.8874900920739162
alpha = 0.05

In [5]:
def statistics(r, n):
    return r * np.math.sqrt(n - 2) / np.math.sqrt(1 - r**2)
t = statistics(r,n)
t

5.447168150485575

считаем критическую область.

In [6]:
t1 = stats.t.ppf(alpha / 2, df=n-2)
t2 = stats.t.ppf(1 - alpha/2, df=n-2)
print(f"(-inf;{t1}),({t2};+inf)")

(-inf;-2.306004135033371),(2.3060041350333704;+inf)


наша статистика лежит в критической области, так что похоже наша гипотеза про r=0 неверна для нашего уровня значимости.

## Задача 3

Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:

131, 125, 115, 122, 131, 115, 107, 99, 125, 111

Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

формула для доверительного интервала
$$P \left( \overline{X} + t_{\alpha / 2, \: n - 1} \cdot \dfrac{\sigma_X}{\sqrt{n}} \leq \mu \leq \overline{X} + t_{1 - \alpha / 2, \: n - 1} \cdot \dfrac{\sigma_X}{\sqrt{n}} \right) = p$$

In [7]:
def confidence_interval(alpha,mean,sigma_x,n):   
    t1 = stats.t.ppf(alpha/2, df=n-1)
    t2 = stats.t.ppf(1 - alpha/2, df=n-1)
    return (mean + t1*sigma_x / np.sqrt(n), mean + t2*sigma_x / np.sqrt(n))


In [8]:
sample = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])
p = 0.95
alpha = 1 - p
sigma_x = sample.std(ddof=1)
mean = sample.mean()
print("Получившийся доверительный интервал", confidence_interval(alpha, mean, sigma_x, len(sample)))


Получившийся доверительный интервал (110.55608365158724, 125.64391634841274)
