## Урок 7. Многомерный статистический анализ. Линейная регрессия.

#### 1. Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks): zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110], ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]. Используя математические операции, посчитать коэффициенты линейной регрессии, приняв за X заработную плату (то есть, zp - признак), а за y - значения скорингового балла (то есть, ks - целевая переменная). Произвести расчет как с использованием intercept, так и без.

Расчет с интерсептом.

In [46]:
import numpy as np

In [47]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])

ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [48]:
X = zp

Y = ks

Для расчета коэффичиентов воспользуемся формулами:

$$b = \frac{\overline{yx} - \overline{y} \cdot {\overline{x}}}{\overline{x^2} - (\overline{x})^2};$$

$$a = \overline{y} - b \cdot {\overline{x}}.$$

In [49]:
b = (np.mean(X*Y) - np.mean(X)*np.mean(Y))/(np.mean(X**2) - (np.mean(X)**2))

b

2.620538882402765

In [50]:
a = np.mean(Y) - b*np.mean(X)

a

444.1773573243596

Расчет без интерсепта.

In [51]:
X = X.reshape(len(X), 1)

X

array([[ 35],
       [ 45],
       [190],
       [200],
       [ 40],
       [ 70],
       [ 54],
       [150],
       [120],
       [110]])

In [52]:
Y =Y.reshape(len(Y), 1)

Y

array([[401],
       [574],
       [874],
       [919],
       [459],
       [739],
       [653],
       [902],
       [746],
       [832]])

Произведем преобразования:

In [53]:
coef = np.dot(np.linalg.inv(np.dot(X.T, X)), X.T @ Y)

coef

array([[5.88982042]])

#### 2. Посчитать коэффициент линейной регрессии при заработной плате (zp), используя градиентный спуск (без intercept).

In [54]:
def mse(B1, n = 10, X = X, Y = Y):
    return np.sum((B1*X-Y)**2)/n

In [55]:
B1 = 0.1

alpha = 1e-6

X = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])

Y = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [56]:
for i in range(15001):
    B1 -= alpha * (2/n) * np.sum(B1*X-Y)
    if i%5000 == 0:
        print('Iteration: {i}, B1={B1}, mse={mse}'.format(i=i, B1=B1, mse=mse(B1)))

Iteration: 0, B1=0.10139952, mse=518113.0902451018
Iteration: 5000, B1=4.49831491213524, mse=83192.31787363968
Iteration: 10000, B1=6.093197967981813, mse=57086.692027102225
Iteration: 15000, B1=6.671706248213084, mse=64939.120116743536


#### *3. Произвести вычисления как в пункте 2, но с вычислением intercept. Учесть, что изменение коэффициентов должно производиться на каждом шаге одновременно (то есть изменение одного коэффициента не должно влиять на изменение другого во время одной итерации).

In [57]:
def mse(B0, B1, Y = Y, X = X, n = 10):
    return np.sum((B0 + B1*X-Y)**2)/n

In [58]:
B0 = 0.1

B1 = 0.1

alpha = 1e-6

X = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])

Y = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [59]:
for i in range(3500000):
    Y_pred = B0 + B1*X
    B0 -= alpha * (2/n) * np.sum(Y_pred - Y)
    B1 -= alpha * np.sum((Y_pred - Y) * X)
    if i % 300000 == 0:
        print('Iteration: {i}, B0 = {B0}, B1 = {B1}, mse = {mse}'
              .format(i=i, B0 = B0, B1= B1, mse=mse(B0, B1)))

Iteration: 0, B0 = 0.10139932, B1 = 0.897539, mse = 399743.82162669196
Iteration: 300000, B0 = 62.8028915116998, B1 = 5.427582219767563, mse = 43365.083276208854
Iteration: 600000, B0 = 116.64580063421093, B1 = 5.0312804406365865, mse = 33682.80462537021
Iteration: 900000, B0 = 162.8871026155677, B1 = 4.690929026807002, mse = 26541.449154567166
Iteration: 1200000, B0 = 202.60000156139094, B1 = 4.398628837921063, mse = 21274.20166051159
Iteration: 1500000, B0 = 236.7061853214533, B1 = 4.147595943826756, mse = 17389.23944611753
Iteration: 1800000, B0 = 265.9972167382886, B1 = 3.9320041778495347, mse = 14523.808986601416
Iteration: 2100000, B0 = 291.1529048532986, B1 = 3.7468499185846977, mse = 12410.354269359905
Iteration: 2400000, B0 = 312.7570824438433, B1 = 3.5878359619592586, mse = 10851.534083374925
Iteration: 2700000, B0 = 331.3111560684698, B1 = 3.4512717883772557, mse = 9701.795528575305
Iteration: 3000000, B0 = 347.24574310034006, B1 = 3.333987910270317, mse = 8853.783194452806
