**1. Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks):**

zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110] 

ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832] 

**Используя математические операции, посчитать коэффициенты линейной регрессии, приняв за X заработную плату (то есть, zp - признак), а за y - значения скорингового балла (то есть, ks - целевая переменная).**

In [5]:
import numpy as np
import pandas as pd

# 20 первых значений из таблицы Стьюдента при a=0.05
students_table = np.array([12.70, 4.303, 3.182, 2.776, 2.571, 2.447, 
                           2.365, 2.306, 2.262, 2.228, 2.201, 2.179, 2.160, 2.145, 2.131, 
                           2.120, 2.110, 2.101, 2.093, 2.086])


x = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110], dtype=np.float64)
y = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832], dtype=np.float64)

# кол-во наблюдений
n = len(x)
print(f'Кол-во наблюдений: {n}')

# найдем коэффициентов регрессии  a  и  b
b = (np.mean(x * y) - np.mean(x) * np.mean(y)) / (np.mean(x**2) - np.mean(x) ** 2)
a = np.mean(y) - b * np.mean(x)

print(f'Коэффициент a: {a}\n')
print(f'Коэффициент b: {b}\n')

# Найдем коэффициент корреляции  r  с помощью коэффициента  b  
# и средних квадратического отклонения, посчитанного для массивов  x  и  y :
r = b * np.std(x) / np.std(y)
print(f'Коэффициент корреляции r: {r}\n')

# Найдем коэффициент детерминации  R2:
R2 = r**2
print(f'Коэффициент корреляции R2: {R2}\n')

# Посчитаем значения, предсказанные моделью значения цен на квартиры
y_pred = a + b * x
print(f'Значения, предсказанные моделью значения цен на квартиры {y_pred}\n')

# найдем среднюю ошибку аппроксимации
A_mean = 100 * np.mean(np.abs((y - y_pred) / y))
print(f'средняя ошибка аппроксимации {A_mean}\n')


# Найдем фактическое значение  F-критерия
F_fact = (r**2 * (n - 2)) / (1 - r**2)
print(f'фактическое значение  F-критерия {F_fact}\n')

# Определим стандартную ошибку и случайные ошибки
s_residual = np.sqrt(np.sum((y - y_pred)**2) / (n - 2))
m_a = s_residual * np.sqrt(np.sum(x ** 2)) / (n * np.std(x))
m_b = s_residual / (np.std(x) * np.sqrt(n))

print(f'Стандартная ошибка = {s_residual}\nслучайная ошибка ma = {m_a}\nслучайная ошибка mb = {m_b}\n')

# Вычислим наблюдаемые значения критерия  ta  и  tb
t_a = a / m_a
t_b = b / m_b
print(f'Наблюдаемые значения ta {t_a}\ntb {t_b}\n')


t_cr = students_table[n-2-1]
print(f't_kp = {t_cr}')

# определим предельную ошибку для каждого показателя 

delta_a = t_cr * m_a
delta_b = t_cr * m_b
print(f'Предельные ошибки: {delta_a}, {delta_b}\n')

# Найдем границы доверительных интервалов

gamma_a_min = a - delta_a
gamma_a_max = a + delta_a
gamma_b_min = b - delta_b
gamma_b_max = b + delta_b
print(f'Доверительные интервалы: {gamma_a_min};{gamma_a_max} {gamma_b_min};{gamma_b_max}\n')


df = pd.DataFrame({'x': x, 'y': y, 'y_pred': y_pred}, columns=['x', 'y', 'y_pred'])
df = df.sort_values('x')
print(df)

Кол-во наблюдений: 10
Коэффициент a: 444.1773573243596

Коэффициент b: 2.620538882402765

Коэффициент корреляции r: 0.8874900920739162

Коэффициент корреляции R2: 0.7876386635293682

Значения, предсказанные моделью значения цен на квартиры [535.89621821 562.10160703 942.07974498 968.2851338  548.99891262
 627.61507909 585.68645697 837.25818968 758.64202321 732.43663439]

средняя ошибка аппроксимации 11.46925184356171

фактическое значение  F-критерия 29.671640859664432

Стандартная ошибка = 89.93340731602925
случайная ошибка ma = 56.466497550681524
случайная ошибка mb = 0.48108279568516

Наблюдаемые значения ta 7.866210524668864
tb 5.447168150485579

t_kp = 2.306
Предельные ошибки: 130.2117433518716, 1.109376926849979

Доверительные интервалы: 313.965613972488;574.3891006762312 1.511161955552786;3.729915809252744

       x      y      y_pred
0   35.0  401.0  535.896218
4   40.0  459.0  548.998913
1   45.0  574.0  562.101607
6   54.0  653.0  585.686457
5   70.0  739.0  627.615079
9  110

В задаче так же было указано про Intercept. Однако, в методичке ничего нет про сдвиг.

___
**2. В каких случаях для вычисления доверительных интервалов и проверки статистических гипотез используется таблица значений функции Лапласа, а в каких - таблица критических точек распределения Стьюдента?**

Таблицу Стьюдента рекомендуется использовать при кол-ве наблюдений <= 30, в противном случае таблицу Лапласа.

При (n) > 100, таблицы распределения Стьюдента дают те же результаты, что и таблицы интеграла вероятностей Лапласа, при 30 < (n) < 100 различия незначительны. Поэтому практически к малым выборкам относят выборки объемом менее 30 единиц (безусловно, большой считается выборка с объемом более 100 единиц).