# Урок 7. Многомерный статистический анализ. Линейная регрессия

In [1]:
import numpy as np
import random as rand

1. Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks): zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110], ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]. Используя математические операции, посчитать коэффициенты линейной регрессии, приняв за X заработную плату (то есть, zp - признак), а за y - значения скорингового балла (то есть, ks - целевая переменная). Произвести расчет как с использованием intercept, так и без.

In [2]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [3]:
X = zp.reshape(len(zp), 1)
y = ks.reshape(len(ks), 1)
X

array([[ 35],
       [ 45],
       [190],
       [200],
       [ 40],
       [ 70],
       [ 54],
       [150],
       [120],
       [110]])

Сначала рассмотрим случай, когда у нас нет свободного члена, то есть без intercept. Тогда уравнение линейной регрессии имеет следующий вид:
### $$y=\beta_1\cdot x$$
Определим коэффициент $\beta_1$:

In [4]:
B = np.dot(np.linalg.inv(np.dot(X.T, X)),X.T@y)
B

array([[5.88982042]])

То есть уравнение линейной регрессии может быть переписано так:
### $$y= 5.8898\cdot x$$

Теперь рассмотрим случай, когда в уравнении регрессии присутствует свободный член/intercept. Уравнение имеет вид:
### $$y=\beta_0 + \beta_1 \cdot x$$

In [5]:
X = np.hstack((np.ones((len(ks),1)),X))
B = np.dot(np.linalg.inv(np.dot(X.T, X)),X.T@y)
B

array([[444.17735732],
       [  2.62053888]])

То есть уравнение регрессии будет выглядеть следующим образом:
### $$y= 444.1774 + 2.6205\cdot x$$

2. Посчитать коэффициент линейной регрессии при заработной плате (zp), используя градиентный спуск (без intercept).

In [6]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [7]:
def mse_(B1, y=ks, X=zp, n=len(ks)):
    return np.sum((B1*X-y)**2)/n

In [8]:
rand.seed(0)
alpha = 1e-5
n=len(ks)
B1 = rand.random()
B1

0.8444218515250481

In [9]:
for i in range(20):
    B1 -= alpha * (2/n) * np.sum((B1*X-y)*X)
    print(f'Iteration: {i},  B1 = {B1}, mse = {mse_(B1)}')

Iteration: 0,  B1 = 2.2487717214936183, mse = 239156.4907389598
Iteration: 1,  B1 = 3.2661501760926086, mse = 151350.08969242842
Iteration: 2,  B1 = 4.003187962769938, mse = 105553.04087884635
Iteration: 3,  B1 = 4.537133513252756, mse = 81724.7557670199
Iteration: 4,  B1 = 4.923949299408933, mse = 69369.14529291284
Iteration: 5,  B1 = 5.2041772220582025, mse = 62993.32893330303
Iteration: 6,  B1 = 5.4071877801656205, mse = 59725.90061314446
Iteration: 7,  B1 = 5.554258372965424, mse = 58068.129579039305
Iteration: 8,  B1 = 5.660803369778056, mse = 57239.42468265382
Iteration: 9,  B1 = 5.737989679628973, mse = 56834.44450340768
Iteration: 10,  B1 = 5.79390714742785, mse = 56643.59426194893
Iteration: 11,  B1 = 5.834416445139811, mse = 56559.147073210144
Iteration: 12,  B1 = 5.863763324848646, mse = 56526.21234433165
Iteration: 13,  B1 = 5.8850236131599525, mse = 56517.17540642889
Iteration: 14,  B1 = 5.900425586506501, mse = 56518.40786377451
Iteration: 15,  B1 = 5.911583515293462, mse

Начиная с 15ой итерации значение ошибки перестает уменьшаться и даже начинает несколько возрастать, значит уравнение регрессии в данном случае можно записать в виде:
### $$y= 5.8850\cdot x$$

3. Произвести вычисления как в пункте 2, но с вычислением intercept. Учесть, что изменение коэффициентов должно производиться на каждом шаге одновременно (то есть изменение одного коэффициента не должно влиять на изменение другого во время одной итерации).

In [10]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [11]:
def mse_(B0, B1, y=ks, X=zp, n=len(ks)):
    return np.sum((B0+B1*X-y)**2)/n

In [12]:
rand.seed(21)
alpha = 1e-5
n=len(ks)
B0 = rand.random()
B1 = rand.random()
print(f'Initial values: B0 = {B0}, B1 = {B1}')

Initial values: B0 = 0.16494947983319797, B1 = 0.6897669242175674


In [13]:
for i in range(50001):
    B0_old, B1_old = (B0, B1)
    B0 = B0_old - alpha * (2/n) * np.sum((B0_old+B1_old*X-y))
    B1 = B1_old - alpha * (2/n) * np.sum((B0_old+B1_old*X-y)*X)
    if i % 1000 == 0:
        print(f'Iteration: {i},  B0 = {B0}, B1 = {B1}, mse = {mse_(B0, B1)}')

Iteration: 0,  B0 = 0.19192623919320706, B1 = 2.1363944521808698, mse = 250415.13811707395
Iteration: 1000,  B0 = 16.24371286197959, B1 = 5.820616465538819, mse = 52958.29191232661
Iteration: 2000,  B0 = 31.87508520314413, B1 = 5.7044281258679765, mse = 49625.08749476494
Iteration: 3000,  B0 = 47.123910419470356, B1 = 5.591083267518589, mse = 46492.93844909324
Iteration: 4000,  B0 = 61.99955060019299, B1 = 5.480512301872316, mse = 43551.14773946794
Iteration: 5000,  B0 = 76.51113871580807, B1 = 5.37264734335551, mse = 40789.55940110538
Iteration: 6000,  B0 = 90.66758422530343, B1 = 5.267422167760564, mse = 38198.531796138675
Iteration: 7000,  B0 = 104.47757854616403, B1 = 5.164772171587226, mse = 35768.912176791455
Iteration: 8000,  B0 = 117.94960039050915, B1 = 5.064634332378978, mse = 33492.01249231376
Iteration: 9000,  B0 = 131.09192097063814, B1 = 4.966947170030099, mse = 31359.586379205684
Iteration: 10000,  B0 = 143.91260907718106, B1 = 4.871650709039652, mse = 29363.80727718671


Как видим минимальное значение ошибки достигается для итерации с номером 46000. Значит уравнение регрессии можно записать следующим образом:
### $$y = 445.5136 + 2.6298 \cdot x$$