**Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks): zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110], ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]. Используя математические операции, посчитать коэффициенты линейной регрессии, приняв за X заработную плату (то есть, zp - признак), а за y - значения скорингового балла (то есть, ks - целевая переменная). Произвести расчет как с использованием intercept, так и без.**

In [1]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression

In [2]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])
n = len(zp)

**Коэффициенты линейной регрессии определяем по формулам:**

$$b = \frac{\overline{yx} - \overline{y} \cdot {\overline{x}}}{\overline{x^2} - (\overline{x})^2};$$

$$a = \overline{y} - b \cdot {\overline{x}}.$$

In [3]:
y_mean = sum(ks)/n
y_mean == ks.mean()

True

In [4]:
x_mean = sum(zp)/n
xy_mean = sum(zp*ks)/n
x2_mean = sum(map(lambda x: x*x, zp))/n
print(y_mean, x_mean, xy_mean, x2_mean, sep='\n')

709.9
101.4
81141.7
13776.6


In [5]:
b = (xy_mean - x_mean * y_mean)/(x2_mean - x_mean**2)
a = (y_mean - b * x_mean)
a, b

(444.1773573243596, 2.620538882402765)

**c использованием intercept** (если это имелось в виду)

In [6]:
zp = pd.DataFrame(zp)
ks = pd.DataFrame(ks)
model = LinearRegression()
model.fit(zp, ks)

LinearRegression()

In [7]:
print('intercept:', model.intercept_)

intercept: [444.17735732]


In [8]:
print('slope:', model.coef_)

slope: [[2.62053888]]


**В каких случаях для вычисления доверительных интервалов и проверки статистических гипотез используется таблица значений функции Лапласа, а в каких - таблица критических точек распределения Стьюдента?**

Таблица значений функции Лапласа используется, когда случайная величина распределена нормально и известна дисперсия или среднеквадратичное отклонение генеральной совокупности.

Таблица критических точек распределения Стьюдента используется, когда случайная величина распределена нормально и не известна дисперсия или среднеквадратичное отклонение генеральной совокупности