**ЛИНЕЙНАЯ РЕГРЕССИЯ**

1. Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks): zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110], ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]. Используя математические операции, посчитать коэффициенты линейной регрессии, приняв за X заработную плату (то есть, zp - признак), а за y - значения скорингового балла (то есть, ks - целевая переменная). Произвести расчет как с использованием intercept, так и без.

In [84]:
import numpy as np
import scipy.stats as stats

In [85]:
%precision 4

'%.4f'

In [86]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110]) # это Х - независимая переменная
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832]) # целевая переменная

$\hat y = \beta_0+\beta_1*X$ &emsp; -> с интерсептом &emsp;&emsp; $\hat y = \beta_1*X$&emsp;-> без интерсепта--> 
$\begin{pmatrix}y_1\\y_2\\ \dots \\y_n \end{pmatrix} = \begin{pmatrix}x_1\\x_2\\ \dots \\x_n \end{pmatrix}\begin{pmatrix}  \\ \beta_1 \\   \\ \end{pmatrix}$

In [87]:
b = (np.mean(zp*ks) - np.mean(zp)*np.mean(ks))/(np.mean(zp**2) - np.mean(zp)**2)
b

2.6205

In [88]:
a = np.mean(ks)-b*np.mean(zp)
a

444.1774

In [89]:
X = zp.reshape(10, 1)
Y = ks.reshape(10, 1)
X, Y

(array([[ 35],
        [ 45],
        [190],
        [200],
        [ 40],
        [ 70],
        [ 54],
        [150],
        [120],
        [110]]),
 array([[401],
        [574],
        [874],
        [919],
        [459],
        [739],
        [653],
        [902],
        [746],
        [832]]))

$ \hat B = (X^T*X)^{-1}* X^T*Y$

$\begin{pmatrix}y_1\\y_2\\ \dots \\y_n \end{pmatrix} = \begin{pmatrix}1 & x_1\\1 & x_2\\ \dots & \dots \\1 & x_n \end{pmatrix}\begin{pmatrix} \beta_0 \\ \beta_1 \\ \end{pmatrix}$ &emsp; --> с интерсептом

In [90]:
B = np.dot(np.linalg.inv(np.dot(X.T, X)), X.T @ ks) # без интерсепта
B

array([5.8898])

In [91]:
X1 = np.hstack([np.ones((10, 1)),X])
X1

array([[  1.,  35.],
       [  1.,  45.],
       [  1., 190.],
       [  1., 200.],
       [  1.,  40.],
       [  1.,  70.],
       [  1.,  54.],
       [  1., 150.],
       [  1., 120.],
       [  1., 110.]])

In [92]:
B1 = np.dot(np.linalg.inv(np.dot(X1.T, X1)), X1.T @ ks)
B1

array([444.1774,   2.6205])

2. Посчитать коэффициент линейной регрессии при заработной плате (zp), используя градиентный спуск (без intercept).

In [93]:
def mse_(B1, ks=ks, zp=zp, n = 10):
    return np.sum((B1*zp-ks)**2)/n

In [94]:
B1 = 0.1
alpha = 2e-5 # если обучение идет медленно, то либо добавляем количесвто итераций, либо увеличиваем alpha
n = len(ks)

In [120]:
for i in range(300000):
    B1 -= alpha*(2/n)*np.sum((B1*zp-ks)*zp)
    if i%75000 ==0:
        print(f'Iteration: {i}, B1={B1}, mse = {mse_(B1)}');

Iteration: 0, B1=5.889820420132689, mse = 56516.85841571941
Iteration: 75000, B1=5.889820420132689, mse = 56516.85841571941
Iteration: 150000, B1=5.889820420132689, mse = 56516.85841571941
Iteration: 225000, B1=5.889820420132689, mse = 56516.85841571941


In [107]:
B1 = 0.1
B0 = 0.1

In [99]:
def mse(B0, B1, ks=ks, zp=zp, n = 10):
    return np.sum((B0+B1*zp-ks)**2)/n

In [109]:
%%time
for i in range(4000001):
    y_pred = B0+B1*zp
    B0 -= alpha*(2/n)*np.sum((y_pred-ks))
    B1 -= alpha*(2/n)*np.sum((y_pred-ks)*zp)
    if i%1000000 ==0:
        print(f'Iteration: {i}, B0 = {B0}, B1={B1}, mse = {mse(B0,B1)}');

Iteration: 0, B0 = 0.1279864, B1=3.2901560000000005, mse = 149526.33499003082
Iteration: 1000000, B0 = 444.1599385302417, B1=2.6206670924287647, mse = 6470.414278142239
Iteration: 2000000, B0 = 444.1773566410366, B1=2.6205388874323243, mse = 6470.414201176665
Iteration: 3000000, B0 = 444.1773573215585, B1=2.6205388824233826, mse = 6470.414201176654
Iteration: 4000000, B0 = 444.1773573215585, B1=2.6205388824233826, mse = 6470.414201176654
CPU times: total: 1min 23s
Wall time: 1min 41s


In [110]:
%whos

Variable   Type        Data/Info
--------------------------------
B          ndarray     1: 1 elems, type `float64`, 8 bytes
B0         float64     444.1773573215585
B1         float64     2.6205388824233826
X          ndarray     10x1: 10 elems, type `int32`, 40 bytes
X1         ndarray     10x2: 20 elems, type `float64`, 160 bytes
Y          ndarray     10x1: 10 elems, type `int32`, 40 bytes
a          float64     444.1773573243596
alpha      float       2e-05
b          float64     2.620538882402765
i          int         4000000
ks         ndarray     10: 10 elems, type `int32`, 40 bytes
mse        function    <function mse at 0x000001DAAC8969D0>
mse_       function    <function mse_ at 0x000001DAAD8344C0>
n          int         10
np         module      <module 'numpy' from 'C:\<...>ges\\numpy\\__init__.py'>
stats      module      <module 'scipy.stats' fro<...>ipy\\stats\\__init__.py'>
y_pred     ndarray     10: 10 elems, type `float64`, 80 bytes
zp         ndarray     10: 10 elem

In [116]:
%pinfo2 mse

[1;31mSignature:[0m
[0mmse[0m[1;33m([0m[1;33m
[0m    [0mB0[0m[1;33m,[0m[1;33m
[0m    [0mB1[0m[1;33m,[0m[1;33m
[0m    [0mks[0m[1;33m=[0m[0marray[0m[1;33m([0m[1;33m[[0m[1;36m401[0m[1;33m,[0m [1;36m574[0m[1;33m,[0m [1;36m874[0m[1;33m,[0m [1;36m919[0m[1;33m,[0m [1;36m459[0m[1;33m,[0m [1;36m739[0m[1;33m,[0m [1;36m653[0m[1;33m,[0m [1;36m902[0m[1;33m,[0m [1;36m746[0m[1;33m,[0m [1;36m832[0m[1;33m][0m[1;33m)[0m[1;33m,[0m[1;33m
[0m    [0mzp[0m[1;33m=[0m[0marray[0m[1;33m([0m[1;33m[[0m [1;36m35[0m[1;33m,[0m  [1;36m45[0m[1;33m,[0m [1;36m190[0m[1;33m,[0m [1;36m200[0m[1;33m,[0m  [1;36m40[0m[1;33m,[0m  [1;36m70[0m[1;33m,[0m  [1;36m54[0m[1;33m,[0m [1;36m150[0m[1;33m,[0m [1;36m120[0m[1;33m,[0m [1;36m110[0m[1;33m][0m[1;33m)[0m[1;33m,[0m[1;33m
[0m    [0mn[0m[1;33m=[0m[1;36m10[0m[1;33m,[0m[1;33m
[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m <no docs