In [18]:
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats
from sklearn.linear_model import LinearRegression

In [19]:
# Задача 1 Даны значения величины заработной платы заемщиков банка (zp) и значения их
# поведенческого кредитного скоринга (ks): zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110],
# ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]. Используя математические
# операции, посчитать коэффициенты линейной регрессии, приняв за X заработную плату
# (то есть, zp - признак), а за y - значения скорингового балла (то есть, ks - целевая
# переменная). Произвести расчет как с использованием intercept, так и без.

In [20]:
x = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
y = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [21]:
model = LinearRegression()
x_r = x.reshape(-1,1)
x_r

array([[ 35],
       [ 45],
       [190],
       [200],
       [ 40],
       [ 70],
       [ 54],
       [150],
       [120],
       [110]])

In [22]:
model.fit(x_r,y)

LinearRegression()

In [23]:
model.intercept_, model.coef_

(444.1773573243596, array([2.62053888]))

In [24]:
b1 = (np.mean(x*y) - np.mean(x)*np.mean(y))/(np.mean(x**2) - np.mean(x)**2)
b1

2.620538882402765

In [25]:
b0 = np.mean(y) - b1*np.mean(x)
b0

444.1773573243596

In [26]:
# Задача 2 Посчитать коэффициент линейной регрессии при заработной плате (zp), используя
# градиентный спуск (без intercept).

In [30]:
def mse_(b1, y=y, x=x, n=10):
    return np.sum((b1*x - y)**2)/n

alpha = 1e-6
b1 = 0.1
n = 10

for i in range(10):
    b1 -= alpha * (2/n) * np.sum ((b1 * x - y) * x)
    print('b1 = {}'.format(b1))

b1 = 0.25952808
b1 = 0.414660650906144
b1 = 0.5655188230595969
b1 = 0.7122203698240712
b1 = 0.8548798195302346
b1 = 0.9936085448867542
b1 = 1.1285148499277806
b1 = 1.2597040545647504
b1 = 1.387278576808517
b1 = 1.5113380127259965


In [33]:
for i in range (3000):
    b1 -= alpha * (2/n) * np.sum ((b1 * x - y) * x)
    if i % 500 == 0:
        print('Iteration = {i}, b1 = {b1}, mse = {mse}'.format(i=i, b1=b1, mse = mse_(b1)))

Iteration = 0, b1 = 5.889820420132673, mse = 56516.85841571943
Iteration = 500, b1 = 5.889820420132673, mse = 56516.85841571943
Iteration = 1000, b1 = 5.889820420132673, mse = 56516.85841571943
Iteration = 1500, b1 = 5.889820420132673, mse = 56516.85841571943
Iteration = 2000, b1 = 5.889820420132673, mse = 56516.85841571943
Iteration = 2500, b1 = 5.889820420132673, mse = 56516.85841571943


In [34]:
mse_(5.889816)

56516.85841598858

In [35]:
# Задача 3 (Дополнительно) Произвести вычисления как в пункте 2, но с вычислением intercept. Учесть, 
# что изменение коэффициентов должно производиться на каждом шаге одновременно (то есть изменение 
# одного коэффициента не должно влиять на изменение другого во время одной итерации).

In [41]:
def mse_(b0, b1, y=y, x=x, n=10):
    return np.sum((b0 + b1*x - y)**2)/n

alpha = 1e-6
b0 = 0.1
b1 = 0.1
n = 10

for i in range(10):
    b1 -= alpha * (2/n) * np.sum ((b0 + b1 * x - y) * x)
    b0 -= alpha * (2/n) * np.sum ((b0 + b1 * x - y) * x)
    print('b0 = {}'.format(b0))
    print('b1 = {}'.format(b1))

b0 = 0.25511284968504
b1 = 0.2595078
b0 = 0.4059212538520911
b1 = 0.4145891927991239
b0 = 0.5525446626386173
b1 = 0.5653670130218098
b0 = 0.6950992113915297
b1 = 0.7119606865810342
b0 = 0.83369781265399
b1 = 0.8544863252714594
b0 = 0.9684502455995434
b1 = 0.9930568187375836
b0 = 1.099463242984417
b1 = 1.1277819238897355
b0 = 1.2268405756868568
b1 = 1.2587683518387396
b0 = 1.3506831349004609
b1 = 1.386119852418107
b0 = 1.4710890120466174
b1 = 1.5099372963607027


In [43]:
for i in range (3000):
    b1 -= alpha * (2/n) * np.sum ((b0 + b1 * x - y) * x)
    b0 -= alpha * (2/n) * np.sum ((b0 + b1 * x - y) * x)
    if i % 500 == 0:
        print('Iteration = {i}, b0 = {b0}, b1 = {b1}, mse = {mse}'.format(i=i, b0=b0, b1=b1, mse = mse_(b0,b1)))

Iteration = 0, b0 = 1.7019695509740187, b1 = 1.747359578924028, mse = 291112.62192948017
Iteration = 500, b0 = 5.689566123497679, b1 = 5.847940271383139, mse = 55242.957872621366
Iteration = 1000, b0 = 5.689569210913027, b1 = 5.847943446276973, mse = 55242.95718566049
Iteration = 1500, b0 = 5.6895692109154, b1 = 5.847943446279413, mse = 55242.95718565994
Iteration = 2000, b0 = 5.6895692109154, b1 = 5.847943446279413, mse = 55242.95718565994
Iteration = 2500, b0 = 5.6895692109154, b1 = 5.847943446279413, mse = 55242.95718565994


In [44]:
mse_(5.689566, 5.847940)

55242.95790011941