In [17]:
import numpy as np
import matplotlib.pyplot as plt
import sympy as sym
from sklearn.linear_model import LinearRegression

### Задача 1
    Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks): 

    zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110], 

    ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]. 

    Используя математические операции, посчитать коэффициенты линейной регрессии, приняв за X заработную плату (то есть, zp -
    признак), а за y - значения скорингового балла (то есть, ks - целевая переменная). Произвести расчет как с использованием
    intercept, так и без.

In [18]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [19]:
b1 = ((zp * ks).mean() - (zp).mean() * (ks).mean()) / ((zp ** 2).mean() - zp.mean() ** 2)
b1

2.620538882402765

In [20]:
b0 = ks.mean() - b1 * zp.mean()
b0

444.1773573243596

In [21]:
b0 = np.mean(ks) - b1 * np.mean(zp)

In [22]:
x = zp.reshape((10,1))
y = ks.reshape((10,1))
X = np.hstack([np.ones((10,1)),x])
B = np.dot(np.linalg.inv(np.dot(X.T,X)),X.T @ y)
print(f'b1 расчитанный матричным способом = {float(B[1])}')
print(f'b0 расчитанный матричным способом = {float(B[0])}')
B1 = np.dot(np.linalg.inv(np.dot(x.T,x)),x.T @ y)
print(f'b1 без использования интерцепта = {float(B1[0])}')


b1 расчитанный матричным способом = 2.6205388824027693
b0 расчитанный матричным способом = 444.1773573243595
b1 без использования интерцепта = 5.889820420132688


### Задача 2
    Посчитать коэффициент линейной регрессии при заработной плате (zp), используя градиентный спуск (без intercept).


In [23]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])
alpha = 1e-6
B1 = 0.1
n = len(zp)
def mse_(B1, x, y, n):
    return np.sum((B1*x-y)**2/n)
for i in range(1501):
    B1 -= alpha * 2/n * np.sum((B1*zp-ks)*zp)
    
    if i % 300 == 0:
        print('Iteration = {i}, B1 = {B1}, mse = {mse}'.format(i = i+1, B1 = B1, mse = mse_(B1,zp,ks,n)))

Iteration = 1, B1 = 0.25952808, mse = 493237.7212546963
Iteration = 301, B1 = 5.888531320728348, mse = 56516.88130936021
Iteration = 601, B1 = 5.889820124983314, mse = 56516.85841572061
Iteration = 901, B1 = 5.889820420065112, mse = 56516.858415719405
Iteration = 1201, B1 = 5.889820420132673, mse = 56516.85841571942
Iteration = 1501, B1 = 5.889820420132673, mse = 56516.85841571942


mse = 56516.86 (B1 = 5.8898)

### Задача 3
    Произвести вычисления как в пункте 2, но с вычислением intercept. Учесть, что изменение коэффициентов должно производиться
    на каждом шаге одновременно (то есть изменение одного коэффициента не должно влиять на изменение другого во время одной
    итерации).


In [25]:
model = LinearRegression()
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])
alpha = 1e-6
B1 = 0.1
B0 = np.mean(ks) - B1 * np.mean(zp)
n = len(zp)
def mse_(B0,B1, x, y, n):
    return np.sum((B0+B1*x-y)**2/n)
for i in range(5501):    
    B1 -= alpha * 2/n * np.sum((B0+B1*zp-ks)*zp)
    B0 = np.mean(ks) - B1 * np.mean(zp)
    if i % 500 == 0:
        print(f'Iteration = {i+1}, B0 = {B0}, B1 = {B1}, mse = {mse_(B0,B1,zp,ks,n)}')

zp = zp.reshape(-1,1)
regres = model.fit(zp,ks)
print(regres.intercept_)
print(regres.coef_)

Iteration = 1, B0 = 697.9736613471999, B1 = 0.117616752, mse = 28363.003010323362
Iteration = 501, B0 = 451.7885682296486, B1 = 2.545477630871315, mse = 6490.1036720954535
Iteration = 1001, B0 = 444.4056133333185, B1 = 2.6182878369495213, mse = 6470.431909236147
Iteration = 1501, B0 = 444.18420259592955, B1 = 2.6204713747935937, mse = 6470.414217102702
Iteration = 2001, B0 = 444.1775626102712, B1 = 2.6205368578868717, mse = 6470.414201190984
Iteration = 2501, B0 = 444.1773634807705, B1 = 2.6205388216886534, mse = 6470.414201176674
Iteration = 3001, B0 = 444.17735750898674, B1 = 2.6205388805819845, mse = 6470.414201176659
Iteration = 3501, B0 = 444.17735732989627, B1 = 2.620538882348163, mse = 6470.414201176658
Iteration = 4001, B0 = 444.1773573245255, B1 = 2.6205388824011293, mse = 6470.414201176657
Iteration = 4501, B0 = 444.17735732436466, B1 = 2.6205388824027147, mse = 6470.414201176659
Iteration = 5001, B0 = 444.1773573243627, B1 = 2.6205388824027347, mse = 6470.41420117666
Iterati