## Многомерный статистический анализ. Линейная регрессия

### Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks): zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110], ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]. Используя математические операции, посчитать коэффициенты линейной регрессии, приняв за X заработную плату (то есть, zp - признак), а за y - значения скорингового балла (то есть, ks - целевая переменная). Произвести расчет как с использованием intercept, так и без.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats
%matplotlib inline

In [2]:
X = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
y = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [3]:
n = len(X)
n

10

Найдем коэффициенты линейной регрессии a и b

a - это intercept, значение y при x = 0;   
b - каким образом изменяется зависимая переменная.

$$ Сперва~ найдем~ коэффициент~ b~ по~ формуле~ \frac{\bar{yx}-\bar{y}*\bar{x}}{\bar{x^{2}}-(\bar{x})^{2}} $$

In [4]:
b = (np.mean(X*y)-np.mean(X)*np.mean(y))/(np.mean(X**2)-np.mean(X)** 2)
b

2.620538882402765

$$ Найдем~ второй~ коэффициент~ a~ по~ формуле~ \bar{y}-b*\bar{x} $$

In [6]:
a = np.mean(y) - b * np.mean(X)
a

444.1773573243596

$$ Теперь~ найдем~ коэффициент~ b~ без~ коэффициента~ a~ с~ использованием~ матричного~ метода~ поиска~ коэффициентов~ по~ формуле~\hat{B}=(X^{T}*X)^{-1}*X^{T}*Y $$ 

Для этого переведем переменные в матрицы

In [7]:
X=X.reshape((10,1))
X

array([[ 35],
       [ 45],
       [190],
       [200],
       [ 40],
       [ 70],
       [ 54],
       [150],
       [120],
       [110]])

In [8]:
y=y.reshape((10,1))
y

array([[401],
       [574],
       [874],
       [919],
       [459],
       [739],
       [653],
       [902],
       [746],
       [832]])

In [10]:
B = np.dot(np.linalg.inv(np.dot(X.T,X)),X.T@y)
B

array([[5.88982042]])

Далее найдем кэффициенты a и b с помощью матричного метода, добавив интерсепт в матрицу X

In [11]:
X = np.hstack([np.ones((10,1)),X])
X

array([[  1.,  35.],
       [  1.,  45.],
       [  1., 190.],
       [  1., 200.],
       [  1.,  40.],
       [  1.,  70.],
       [  1.,  54.],
       [  1., 150.],
       [  1., 120.],
       [  1., 110.]])

In [12]:
B = np.dot(np.linalg.inv(np.dot(X.T,X)),X.T@y)
B

array([[444.17735732],
       [  2.62053888]])

### Посчитать коэффициент линейной регрессии при заработной плате (zp), используя градиентный спуск (без intercept)

In [13]:
X = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
y = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

Запишем функцию для средней квадратичной ошибки чтобы потом проверить результат

In [14]:
def mse_(B1, y=y, X=X, n=10):
    return np.sum((B1*X-y)**2)/n

In [15]:
B1 = 0.1 # стартовое значение из нормального стандартного распределения

In [17]:
alpha = 1e-6 # скорость обучения
alpha

1e-06

In [18]:
n = 10

In [20]:
for i in range(10000): # колл-во итераций
    B1 -=alpha*(2/n)*np.sum((B1*X-y)*X) # производная средней квадратичной ошибки
    if i%5000 == 0: # выводим каждую пятитысечную итерацию, в нашем случае выведется две
        print("Iteration: {i}, B1={B1}, mse={mse}".format(i=i,B1=B1,mse=mse_(B1)))

Iteration: 0, B1=0.25952808, mse=493237.7212546963
Iteration: 5000, B1=5.889820420132673, mse=56516.85841571943


##  Произвести вычисления как в пункте 2, но с вычислением intercept. Учесть, что изменение коэффициентов должно производиться на каждом шаге одновременно (то есть изменение одного коэффициента не должно влиять на изменение другого во время одной итерации)

In [22]:
B1 = 0.1 # стартовое значение из нормального стандартного распределения

In [23]:
B0 = 0.1 # стартовое значение из нормального стандартного распределения

In [24]:
alpha = 5e-5 # скорость обучения
alpha 

5e-05

In [27]:
def mse_(B0, B1, y=y, X=X, n=10):
    return np.sum((B0+B1*X-y)**2)/n

In [29]:
for i in range(750000):
    y_pred = B0+B1*X
    B0 -=alpha*(2/n)*np.sum((y_pred-y))
    B1 -=alpha*(2/n)*np.sum((y_pred-y)*X)
    if i%30000==0:
        print("Iteration: {i}, B1={B1}, B0={B0}, mse={mse}".format(i=i,B0=B0,B1=B1,mse=mse_(B0,B1)))

Iteration: 0, B1=8.07539, B0=0.169966, mse=122360.8044853729
Iteration: 30000, B1=4.147499177901624, B0=236.72238797814268, mse=17387.534091270718
Iteration: 60000, B1=3.333959481314144, B0=347.251033231717, mse=8853.523054754403
Iteration: 90000, B1=2.9538605492800123, B0=398.89180773391786, mse=6990.625380056672
Iteration: 120000, B1=2.7762721676196023, B0=423.0192145710213, mse=6583.971611794087
Iteration: 150000, B1=2.6932999973691483, B0=434.2919301004539, mse=6495.202760188238
Iteration: 180000, B1=2.654534054621566, B0=439.55872550311335, mse=6475.825320138674
Iteration: 210000, B1=2.636421977854534, B0=442.01945767904283, mse=6471.595399664535
Iteration: 240000, B1=2.6279597220298276, B0=443.1691516349953, mse=6470.672046157995
Iteration: 270000, B1=2.6240060189529295, B0=443.7063072853679, mse=6470.4704864115965
Iteration: 300000, B1=2.6221587847940984, B0=443.9572751113981, mse=6470.426487736031
Iteration: 330000, B1=2.6212957270552315, B0=444.07453134739086, mse=6470.4168832

Скорость обучения и колл-во итераций подбираются таким образом что бы разница последних итераций была как можно меньше