In [1]:
from scipy import stats
import numpy as np

### Задание 1

Даны значения величины заработной платы заемщиков банка (salary) и значения их поведенческого кредитного скоринга (scoring):

salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]

scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

Используя только встроенные питоновские функции и структуры данных (т.е. без библиотек numpy, pandas и др.) найдите:
1. ковариацию этих двух величин,
2. коэффициент корреляции Пирсона.

Можно затем посчитать те же значения с использованием библиотек, чтобы проверить себя.

In [2]:
salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

$$\sigma_{XY} = \dfrac{1}{n - 1} \displaystyle\sum_{i = 1}^n (x_i - \overline{X}) \cdot (y_i - \overline{Y})$$


In [3]:
len(salary) == len(scoring)

True

In [4]:
n = len(salary)
salary_mean = sum(salary) / n
scoring_mean = sum(scoring) / n

In [5]:
cov = sum((salary[i] - salary_mean) * (scoring[i] - scoring_mean) for i in range(n)) / (n - 1)

print('Ковариация =', cov)

Ковариация = 10175.377777777778


$$r_{XY} = \dfrac{\sigma_{XY}}{\sigma_X \cdot \sigma_Y}$$

In [6]:
salary_std = (sum((item - salary_mean) ** 2 for item in salary) / (n - 1)) ** 0.5
scoring_std = (sum((item - scoring_mean) ** 2 for item in scoring) / (n - 1)) ** 0.5

salary_std, scoring_std

(62.31318747531162, 183.99544076477068)

In [7]:
r = cov / (salary_std * scoring_std)

print('Коэффициент корреляции Пирсона =', r)

Коэффициент корреляции Пирсона = 0.8874900920739162


**Проверка:**

In [8]:
np.cov(salary, scoring)[0][1]

10175.377777777776

In [9]:
np.corrcoef(salary, scoring)[0][1]

0.8874900920739162

### Задание 2

Проведите тест на значимость коэффициента корреляции Пирсона, найденного в предыдущей задаче. Что для этого нужно знать:
* Нулевая гипотеза: реальный коэффициент корреляции равен 0. Альтернативная гипотеза двухсторонняя.
* Статистика: t = r * sqrt(n - 2) / sqrt(1 - r ** 2), где r - коэффициент корреляции Пирсона, посчитанный по выборке.
* В предположении верности нулевой гипотезы эта статистика имеет распределение Стьюдента с параметром df = n - 2.

In [10]:
t = r * np.sqrt(n - 2) / np.sqrt(1 - r ** 2)

In [11]:
p_left = stats.t.cdf(t, df = n - 2)
p_right = 1 - stats.t.cdf(t, df = n - 2)

pvalue = 2 * min(p_left, p_right)

print(f'P-значение = {pvalue * 100:.2f}%')

P-значение = 0.06%


P-значение очень мало, при значении $\alpha \geqslant 0.06\%$ гипотеза $H_0$ отвергается. Следовательно, при стандартных значениях $\alpha \approx 1-5\%$ гипотеза $H_0$ неверна, а t-статистика не попадает в доверительный интервал

In [12]:
alpha = 0.01
t1 = stats.t.ppf(alpha / 2, df = n - 2)
t2 = stats.t.ppf(1 - alpha / 2, df = n - 2)

t1, t, t2

(-3.3553873313333966, 5.447168150485575, 3.3553873313333953)

### Задание 3

Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:

131, 125, 115, 122, 131, 115, 107, 99, 125, 111

Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

In [13]:
IQ = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])

$$P \left( \overline{X} + t_{\alpha / 2, \: n - 1} \cdot \dfrac{\sigma_X}{\sqrt{n}} \leq \mu \leq \overline{X} + t_{1 - \alpha / 2, \: n - 1} \cdot \dfrac{\sigma_X}{\sqrt{n}} \right) = p$$

In [14]:
mean = IQ.mean()
std = IQ.std(ddof=1)
n = IQ.shape[0]

mean, std, n

(118.1, 10.54566788359614, 10)

In [15]:
alpha = 1 - 0.95
t1 = stats.t.ppf(alpha / 2, df = n - 1)
t2 = stats.t.ppf(1 - alpha / 2, df = n - 1)

t1, t2

(-2.2621571627409915, 2.2621571627409915)

In [16]:
print(f'Доверительный интервал: [{mean + t1 * std / np.sqrt(n)}; {mean + t2 * std / np.sqrt(n)}]')

Доверительный интервал: [110.55608365158724; 125.64391634841274]
