In [None]:
import numpy as np
import scipy.stats as stats
from sklearn.linear_model import LinearRegression

Задача 1. Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks): zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110], ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]. Используя математические операции, посчитать коэффициенты линейной регрессии, приняв за X заработную плату (то есть, zp - признак), а за y - значения скорингового балла (то есть, ks - целевая переменная). Произвести расчет как с использованием intercept, так и без.

In [None]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [None]:
n = len(zp)

Расчет с inercept:

y_pred = b0 + b1*zp

b0 и b1 - искомое (в данной задаче)

In [None]:
b1 = (n*np.sum(zp*ks)-np.sum(zp)*np.sum(ks))/(n*np.sum(zp**2)-np.sum(zp)**2)
b1

2.6205388824027653

In [None]:
b0 = np.mean(ks) - b1* np.mean(zp)
b0

444.17735732435955

Расчет без inercept:

y_pred = b1*zp

In [None]:
model = LinearRegression(fit_intercept=False)
zp = zp.reshape(-1, 1)
regres = model.fit(zp, ks)

b0 = regres.intercept_
b1 = regres.coef_

print(f"b0 = {b0} - intercept\nb1 = {b1}")

b0 = 0.0 - intercept
b1 = [5.88982042]


Задача 2. Посчитать коэффициент линейной регрессии при заработной плате (zp), используя градиентный спуск (без intercept).

In [None]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [None]:
# функция потерь для b1
def mse_(b1, y=ks, x=zp, n=len(zp)):
  return np.sum((b1*x - y)**2) / n

In [None]:
alpha = 1e-6
b1 = (n*np.sum(zp*ks)-np.sum(zp)*np.sum(ks))/(n*np.sum(zp**2)-np.sum(zp)**2)
n = len(zp)

In [None]:
# каждую 500-ую итерацию
for i in range(2000):
  b1 -= alpha * (2/n) * np.sum((b1*zp - ks) * zp)
  if i % 500 == 0:
    print(f"Итерация {i}: b1 = {b1}, mse = {mse_(b1)}")

Итерация 0: b1 = 5.889820420132673, mse = 56516.85841571943
Итерация 500: b1 = 5.889820420132673, mse = 56516.85841571943
Итерация 1000: b1 = 5.889820420132673, mse = 56516.85841571943
Итерация 1500: b1 = 5.889820420132673, mse = 56516.85841571943


b1 в задаче 1 и задаче 2 совпало, что и требовалось получить.

Задача 3. Произвести вычисления как в пункте 2, но с вычислением intercept. Учесть, что изменение коэффициентов должно производиться на каждом шаге одновременно (то есть изменение одного коэффициента не должно влиять на изменение другого во время одной итерации).

In [None]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [None]:
def _mse(b0, b1, x=zp, y=ks):
    return np.sum(((b0 + b1 * x) - y)**2) / len(x)

In [None]:
def _mse_b0(b0, b1, x = zp, y = ks):
    return 2 * np.sum((b0 + b1 * x) -y) / len(x)

In [None]:
def _mse_b1(b0, b1, x = zp, y = ks):
    return 2 * np.sum(((b0 + b1 * x) - y) * x) / len(x)

In [None]:
alpha = 5e-05
b1 = 0
b0 = 0
mse_min = _mse(b0, b1)
i_min = 1
b1_min = b1
b0_min = b0

for i in range(1000000):
    b0 -= alpha * _mse_b0(b0, b1)
    b1 -= alpha * _mse_b1(b0, b1)
    if i % 200000 == 0:
        print(f'Итерация {i}: b0 = {b0}, b1 = {b1}, mse = {_mse(b0, b1)}')
    if _mse(b0, b1) > mse_min:
        print(
            f'Итерация {i_min}: b0 = {b0_min}, b1 = {b1_min}, mse = {mse_min},\nДостигнут минимум.')
        break
    else:
        mse_min = _mse(b0, b1)
        i_min = i
        b1_min = b1
        b0_min = b0
print(f'b0 = {b0_min} \nb1 = {b1_min}')

Итерация 0: b0 = 0.07099, b1 = 8.1134501614, mse = 124651.680683742
Итерация 200000: b0 = 441.39684663817883, b1 = 2.6410041512597213, mse = 6472.375345394032
Итерация 400000: b0 = 444.15994943459765, b1 = 2.62066700891779, mse = 6470.414278045912
Итерация 516928: b0 = 444.17646079822043, b1 = 2.6205454810641426, mse = 6470.4142013805385,
Достигнут минимум.
b0 = 444.17646079822043 
b1 = 2.6205454810641426


Как видим, коэффициенты с использованием intecept совпали с полученными в первой задаче. Решение произведено верно.